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DANS LES PROBLÈMES 
D'EXTRÉMUM 


ÉDITIONS MIR + MOSCOU 


PRÉFACE 


Les méthodes numériques de résolution de divers problèmes d'ex- 
trémum ont pris ces dernières années un bel essor si bien que la bi- 
bliographie correspondante contient des centaines d'ouvrages. Cet 
intérêt n’est nullement fortuit, il reflète le rôle de premier plan que 
les problèmes d’extrémum jouent dans les applications. Le présent 
livre est précisément consacré à la recherche efficace du minimum 
d'une fonction dont les variables sont soumises à des contraintes. 

Signalons tout de suite que les exigences formulées à l'égard de 
nouveaux algorithmes ne sont pas les mêmes qu’il y a dix ou quinze 
années où chaque nouvelle procédure de calcul pour tel ou tel pro- 
blème de minimisation a étéaccueillie avec intérêt.Il ne suffit actuel- 
lement pas de construire un algorithme, il faut montrer de plus 
qu’il l’emporte sur ceux connus. On a donc à comparer l'efficacité 
de différents algorithmes, problème qui ne se résout pas, hélas. si 
facilement. En effet, on ne compare qu’en se basant sur un critère. Or, 
il y en a plus d’un (par exemple, la précision du résultat, je temps 
de calcul, l'occupation de mémoire nécessaire), et il arrive qu'on 
demande d'évaluer un algorithme selon plusieurs critères assez 
contradictoires. 

En choisissant les algorithmes à examiner dans le présent livre, 
les auteurs sont essentiellement partis du critère de précision du 
résultat et de celui de vitesse de cénvergence du processus itératif. 
Même en restant dans ce cadre étroit, on ne peut cependant ordonner 
univoquement tous les algorithmes ni en indiquer le meilleur et le 
pire. Le fait est qu’on obtient les estimations de la vitesse de conver- 
gence pour des classes de problèmes, non pas pour des problèmes 
isolés, et un algorithme mauvais pour une vaste classe peut s'avérer 
efficace pour une autre, plus restreinte. Le calculateur doit donc 
posséder tout un arsenal d’algorithmes pour être en mesure de faire 
face à chaque problème proposé. 

On a également à tenir compte de la façon dont on réalise une 
grande rapidité de convergence. Dans la pratique, même le calcul 
de dérivées premières d'une fonction s'avère souvent ardu et celui 
de dérivées secondes inextricable. Les auteurs ont donc insisté sur 
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des algorithmes qui exigent le calcul des,seules'dérivées premières ou 
des valeurs de la fonction. 

Les auteurs se placent en dimension finie. Car, premièrement, 
en calcul automatique la solution d'un problème doit être approchée 
par la solution d’un autre en dimension finie, et, deuxièmement, la 
plupart des algorithmes se généralisent assez facilement à la mini- 
misation de fonctionnelles sans subir des modifications tant soit 
peu essentielles. Les auteurs ont:résolu par conséquent de se borner 
au cas en dimension finie. Le livre n'en est devenu que plus]acces- 
sible au large public puisque la plupart des résultats ne nécessitent 
pour être compris que la connaissance des fondements de l’analyse 
mathématique et de l’algèbre linéaire. 

Afin de ne pas alourdir l'exposé, les références dans le texte 
même sont très rares (elles sont en général réunies dans les brefs 
commentaires à la fin de chaque chapitre). La littérature relative 
aux questions traitées étant trop abondante, la bibliographie ne 
renferme pour l'essentiel que des articles et des monographies dont 
les auteurs se sont servis directement. 

Le présent livre passe complètement sous silence les méthodes 
de résolution de la vaste classe importante de problèmes d’'extrémum 
mal posés, méthodes élaborées par A. Tikhonov et son école. Les 
auteurs effleurent à peine la résolution de; problèmes de commande 
optimale. Ces problèmes et les techniques de résolution correspon- 
dantes sont étudiés de divers points de vue dans la monographie de 
N. Moisséev Méthodes numériques en théorie des systèmes optimauzx. 

Les algorithmes que le lecteur trouvera dans les pages ci-dessous 
sont de nature itérative. Cela signifie qu’on construit une suite finie 
ou infinie de points zx, k = 0, 1, ..., dont on peut dire qu’elle 
converge dans un sens ou dans un autre vers la solution du problème 
de minimisation, les points successifs étant reliés par 

Th+1 = Th À AhPhs 


où p4 est le vecteur déplacement à partir dupoint x, et æ&, le pas 
dans la direction p,. Aussi la description de tout algorithme de cet 
ouvrage consiste à définir le choix du vecteur p4 et la grandeur du 
pas a«,. Notons que si le choix de p, définit la vitesse totale de con- 
vergence, celui de «, influe sensiblement sur le volume de calcul 
à chaque itération. Si bien que les auteurs ont tâché de choisir æk 
de façon qu'on puisse trouver la valeur cherchée du pas au bout d'un 
nombre fini d'opérations sans pour autant réduire la vitesse totale 
de convergence. 

Voyons brièvement les estimations de la vitesse de convergence 
que les auteurs utilisent le plus souvent. 

On dit que la convergence d'une suite {z,} vers un point zx, est 
linéaire ou que la suite converge en progression'géométrique (de rapport 
Qg) si, à partir d'un certain k, on a l'inégalité {||zur1 — ze || 
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< q || Fe — 2,4 |, où 0<<g<1. Si l’on a l'inégalité ||z,4, — 
— 24 | Lqn lt — ze Il, avec gx 0 pour k +00, on dit que 
la convergence de la suite {xr,} est superlinéaire ou qu'elle converge 
plus rapidement qu'en progression géométrique. Si q £ C || zx — 
— 2, || —0, alors || xs, — y | K C [zx — zx, [F. Cette estima- 
tion montre que la convergence est  quadratique. 

Le lecteur retrouvera plus bas ces estimations sous des formes 
équivalentes. 

Quelques mots sur les notations. 

Comme on l’a dit plus haut, les auteurs se placent dans un espace 
vectoriel 7-dimensionnel qui sera noté E". On représentera un vecteur 
par une minuscule latine et ses coordonnées seront spécifiées par 
des indices supérieurs de sorte que x‘ est la i-ième coordonnée du 
vecteur x. Les indices inférieurs désigneront les éléments d’une 
suite. On notera des matrices par des majuscules 4, B, C, ..., A* 
désignant la transposée de À. On comprendra par zx un vecteur- 
colonne de sorte que z* sera un vecteur-ligne. Le produit scalaire 
de deux vecteurs sera représenté comme (x, y), i.e. 


,y)= à z'yi 
{== 


Ceci étant, on considérera, sauf indication contraire, comme norme 
d'un vecteur sa norme euclidienne 


Izil=V(, 2). 


Les auteurs tiennent à exprimer leurs remerciements les plus 
chaleureux à G. Lubarskaïa, L. Sobolenko, E. Bogouslavskaïa et 
à V. Panine pour leur aide inappréciable lors de la rédaction du pré- 
sent ouvrage. 

Les chapitres premier (à l'exception du $ 5 et d’une partie du 
$ 2)et IIT (sauf le $ 9 et partiellement le $ 3) sont dus à B. Pché- 
nitchny. 

Le chapitre II, les n°5 3-4 du $ 2et le $ 5 du chapitre premier, 
les n°% 5, 6 du $ 3et le $ 9 du chapitre III sont écrits par Ÿ. Dani- 
line. 


B. Pchénitchny, Y. Daniline 


CHAPITRE PREMIER 


INTRODUCTION À LA THÉORIE 
DE LA PROGRAMMATION MATHÉMATIQUE 


Les auteurs exposent certains résultats de la théorie des ensem-— 
bles convexes et [des conditions nécessaires d’extrémum, qui sont. 
indispensables à la compréhension des chapitres suivants. 


$S 1. Ensembles convexes 


Dans ce paragraphe nous examinerons les propriétés fondamenta- 
les des ensembles convexes dans l’espace euclidien n-dimensionnet 


1. Définition. Théorème de séparation. 


DeériNiTION 1.1. On dit qu’un ensemble X de points contenu 
dans E" est convexe si, toutes les fois qu'il contient des points z1, %e. 
quelconques, il contient tous les points de la forme 


z= mn +(—-a)z, 0KA<1. 


En langage géométrique, cela signifie que si les extrémités d'un 
segment appartiennent à un ensemble convexe À, il en est de même 
du segment tout entier. 

LEMME 1.1. Les affirmations suivantes sont vraies: 

1. L'intersection d'un nombre quelconque d'ensembles convexes est 


convete. 
2. SimEX,i—1,...,m, alors pour tous les À;, i=1,..., m, 


m 
vérifiant la condition D) M=1, M>0, i—1, ..., m, le point x = 
rer 


m 
= >, Az appartient à X. 
ii 


Le théorème suivant et ses conséquences sont cet instrument prin— 
cipal à l’aide duquel on obtient les résultats caractérisant telle ow 
telle propriété des ensembles convexes. 
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THeOREME 1.1. Etant donné un ensemble X convexe, sa ferme- 


ture X et un point x, n'appartenant pas à X, il existe un vecteur 
a € E",a 0, et un nombre e > 0 tels que 


(a, z) < (a, To) — £ 
pour tous les x € X. 


DEMONSTRATION. X est par définition un ensemble fermé. Mon- 
trons qu'il est convexe. En effet, si x € X, il existe une suite 7;, 
k — 1, ..., telle que z, € À, zx x. Soit maintenant x, y € X, 


0SLAS<A1. Montrons que Ar + (1 — À)y E X. Etant donné la 
convexité de X,z2,, YR EX, Ir ZT, Yr —y entraîne 


At +(—dyEx, 
Arr + (1 — À) ya — x + (1 — À) y. 


Or, cela signifie justement que Àz + (1—A)yEeX, i.e. À est 
<onvexe. 


Prenons un point y € X dont la distance à x, soit minimale, i.e, 
x — 20 1 > 11 — vol, x € X. 
“X étant convexe, on a, quels que soient EX et 0<A1<1 
Az+(1—À) y=y+A(z—y)e X. 
Donc 
IL Az + (1 — 2) y— 2 = 11 y—20 +À (x — y) [= 
= (y—20+ÀA(z—y),y—2+A (x —y)) = 
= (Y— To, Y— To) + 2À (Y— ro, 2—y) + (ay, z—y)= 
= ||y—2o +24 (Yy— 2, 2—y) + |Iz-y ll y xl. 
La dernière inégalité est juste pour tous les À variant de O0 à 1. Sim- 
plifions-la, nous obtenons 
2(Y—21z09 z—y)+Alz-y|F2>0, 
d'où, lorsque À = 0, 
(Y — Zo, z — y) > 0. 


Posons a — zo — y. La dernière inégalité s'écrit alors comme 
(a, x) < (a, y). Mais 


(a, y) = (a, zo) — (a, zo — y) = (a, zo) — [la [F. 
Ainsi, en posant & — || a ||”, on obtient finalement 


(a, x) < (a, Zo) — €. 
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Cette inégalité est vérifiée pour n'importe quels x € X. De plus, 
£ >> 0 parce que zx é À et donc y = x. C'est pourquoi 
e=|lalf=|z —ylf> 0. 
Le théorème est démontré. 
REMARQUE. En démontrant le théorème 1.1: nous avons prouvé 
par là même la convexité de la fermeture d'un ensemble convexe. 


A titre d'exercice simple on démontre que l’ensemble de points in- 
térieurs d’un ensemble convexe est convexe. 


ConseQuENcE 1.1. Soient X un ensemble convexe et x, un point 
frontière de X. Îl existe alors un vecteur a -- 0 tel que 


(a, z) < (a, To); T € X. 


ConsequenNcE 1.2. Si X et Ÿ sont deux ensembles convexes sans 
point commun, il existe alors un vecteur a =£ 0 tel que 


(a, zx) (a, y), zEX, yETY. 


CoNSeQuENcE 1.3. Si X et Y sont deux ensembles convexes fermés 
sans point commun dont l’un est borné, il existe un vecteur a Æ 0 et 
un nombre e >> 0 tels que 


(a, z) < (a, y) — e, zEX, yEry. 
2. Cônes convexes. 


DEFINITION 1.2. Un ensemble K s'appelle cône convexe s'il est 
convexe et si, toutes les fois qu'il contient un point zx € K, il contient 
tous Les points Az pour À > 0. 

On voit aisément que si x, y € K, alors z + y € K. En effet, K 


étant convexe, le point + z + 3 ÿ appartient à X. Mais 
1 1 
z+y—=2 ( TI+s y) : 


d'où zx + y E K par définition d’un cône. Les propriétés les plus 
importantes des cônes s’énoncent en termes de la dépendance entre 
un cône originel (primal) et son dual. 


DeriNtTion 1.3. Soit K un cône convexe. L'ensemble de tous 
des vecteurs y € E" satisfaisant, quels que soient x € K, à l'inégalité 


(zx, y) > 0 


s'appelle cône dual et se note K*. 
On vérifie immédiatement que K* est également convexe. 


LEMME 1.2. K* est un cône convexe fermé. 
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LEMME 1.3. Soit K un cône convexe. Alors x, € K si et seulement 
si (zo, y) > 0 pour tous les y € K*. Si : est fermé, alors 


(K*)* — 


D£EMONSTRATION. Il est évident que. lorsque z, € K, on à 
(za y) > 0 pour tous les y € AX*. Procédons par l'absurde. Ainsi, 
soit (zo, Y) > 0 pour tous les y € K*, mais z,é À. Vu que K est 
convexe fermé, il existe, en vertu du théorème 1.1, un vecteur a tel 
que 


(a, To) < (a, x) — Ë) z € K. 


Or, un cône fermé X contient toujours le point 0. On a donc, en 
particulier, 
(a, zo) L — 8. (1.1} 
D'autre part, 
(a, 2)>0,zx€K. (1.2) 


En effet, si (a, x,) << 0 pour un certain x, € X, on a, du moment que 
Az, € K pour À > O0, 


(a, Lo) < < À (a, T1) — €, 


et la dernière inégalité est vérifiée pour tous les À, chose impossible 
si (a, z;) << 0. Ainsi, (1.2) est juste, et donc a € K*. Mais alors 
(a, zo) > 0, ce qui contredit (1.1). La première affirmation du lemme 
vient d'être démontrée. 

Démontrons la seconde affirmation. Si z € K, alors, par défimi- 
tion, (x, y) > 0 quels que soient y € K*, doncx E(K*)}*, KE(K*)*. 
Inversement, par définition x € (K*)* si et seulement si (x, y) = 0 
pour tous les y € X*. On a montré plus haut que dans cecasz € K, 
i.e. (K*)* © X. Ainsi, (X*)* = X, c.q.f.d. 

Une classe importante de cônes de la théorie de la programmation 
linéaire est celle de cônes polyédriques. 


DEFINITION 1.4. Un cône K est dit polyédrique s’il existe un 
ensemble fini de n-vecteurs a;, i = 1, ..., m, tel que x € K entraine 
le développement 


TZ = + Â;a;, À: > 0, L — 1, ..) M, (1.3) 
i=1 


et, inversement, (1.3) implique x € K. 

On voit donc qu’un cône polyédrique X est tout simplement un 
ensemble de points susceptibles de se mettre sous la forme (1.3). 
Pour un point z € X donné, la représentation (1.3). n’est en géné- 
ral pas unique. 
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LEMME 1.4. Soit x € K, K étant un cône polyédrique. Il existe 
alors un développement de x suivant les vecteurs a; à coefficients non 
négatifs À; tel que le nombre d'indices i pour lesquels À; > 0 soit au 
plus égal à la dimension de l'espace n. Ceci étant, les vecteurs a; corres- 
pondant à des À; non nuls sont linéairement indépendants. 

m 
DemonsrraTion. Soit x € K, ie. x = © Mai, et soit J l'en- 
ii 
semble d'indices à pour lesquels À; => 0. Admettons que le nombre 
d'éléments de 7 est au moins égal à n et que les vecteurs a;, i ET, 
sont linéairement dépendants. Comme un espace n7-dimensionnel 
contient nr vecteurs linéairement indépendants au plus, on peut 


toujours indiquer des coefficients &; non tous nuls tels que >, @;d; = 
ie) 
— 0. De plus, par définition de 7, À; = 0 si i é Ÿ, de sorte que 


z = ÿ, lai, M>0,iedt. 


ah 


ie J 


En retranchant la relation précédente et en multipliant par e on 
obtient 


z = © (Mi — ei) mu. 
1e J 
On peut estimer, sans restreindre la généralité, que &; > 0 pour 
certains i€J. Posons £&, = min M En posant À; = À; — Eos 


if, &,>0 &i 
il vient alors 
ZT = » À:@i, 
icŸ 


À; > 0, l'égalité ayant lieu pour au moins un i. 

Nous avons obtenu le développement à coefficients non négatifs 
de x suivant les vecteurs a;, mais le nombre de coefficients stricte- 
ment négatifs a diminué. 

Continuons ce processus tant que le nombre de coefficients non 
nuls n'est pas net les vecteurs a; pour lesquels à; >> 0 ne deviennent 
pas linéairement indépendants. 

Du moment qu'il s’agit d’un entier, le processus ne peut durer 
indéfiniment, et, après un nombre fini de pas, on aboutit au dévelop- 
pement satisfaisant aux hypothèses du lemme. 


LEMME 1.5. Un cône polyédrique est fermé. 
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LEMME 1.6. Soit K un cône donné par le système d'inégalités 


linéaires 
(a;, x) > 0, i = 1, , M, 


où a E ET. Le cône dual K"* est alors abs et se compose de points 
y de la forme 


DEMONSTRATION. Considérons le cône 
mn 
= {y: 2 lim, M>0, i=1, ...,m). 


K* est par définition un ensemble de points z pour lesquels 
(x, y)>0, ve, ie. (x, D'Au)>0 quels que soient À,>0, 
i=1 


auquel cas 
(x, à Ma) = 2 Ai (x, &)20. 


Il est évident”que la dernière inégalité n'est vérifiée pour n'importe 
quels À; > 0 que si (a, x) 20, i—=1,..., m, i.e. si x € K. Donc 


K* = K. Etant donné _que K est Solvédrique: il est fermé et, en 
vertu du lemme 1.3, (K*)* — À. Ainsi, K* =X, c.q.f.d. 
REMARQUE. Le lemme que nous venons de démontrer (lemme 


de Farka$-Minkowski) constitue cet outil principal dont on se sert 
pour obtenir les conditions nécessaires d’extrémum. 


3. Ensembles strictement et fortement convexes. 


DÉFINITION 1.5. Un ensemble X & E" est dit strictement con- 
rexe si, quels que soient zr, z2 € X, T1 5 Ta, tous les points de la forme 


Ar, +(—A)z,, OA < 1, 


sont intérieurs à X. 


D&riNITION 14.6. Un ensemble X & E'est dit fortement convexe 
s’il existe une constante y >> 0 telle que tout point 


APE +yeXx 


Si Ty, Ta € X et [y IE Y ILzs — 2 IF 
On constate facilement qu'un ensemble fortement convexe l’est 


strictement (la réciproque n'étant pas juste). 
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$S 2. Fonctions convexes 


Vu leurs propriétés importantes, les fonctions convexes consti- 
tuent l’un des grands chapitres de la théorie de la programmation 
mathématique. C’est en termes de ces fonctions que s’énonce le pro- 
blème de programmation convexe, le problème d’extrémum le plus 
étudié. Elles jouent également un rôle de premier plan dans le pro- 
blème non linéaire général car on n'arrive à formuler des conditions 
nécessaires d'extrémum assez générales et exhaustives que si les 
dérivées directionnelles en un point donné des fonctions figurant dans 
le problème sont des fonctions convexes de la direction. - 

Les fonctions convexes que nous rencontrerons dans la suite sont 
pour la plupart définies dans tout l’espace si bien" qu'étant donnée 
une fonction convexe, sa valeur est finie en chaque point x € E". 
Du point de vue de la théorie générale il est des fois utile de considé- 
rer également des fonctions convexes qui peuvent être + en cer- 
tains points. Nous ne les rencontrerons toutefois que fort rarement 
(en étudiant les problèmes duals de la programmation convexe si 
bien que partout dans ce paragraphe on suppose, sauf indication du 
contraire, que la fonction convexe considérée est définie dans l’espa- 
ce E" tout entier et y prend des valeurs finies. 


1. Définition. Propriétés fondamentales. 


Dérinrrion 2.1. Une fonction f (x) définie pour tous les x € E" 
est dite convexe si 


f (Mt + hote) < Mf (t1) + Àof (Ta) 
quels que soient x, ta et À, ko > 0, M + se = 1. 


REMARQUE. Si f(x) = + oo pour certains zx, la définition 
reste en vigueur. 


LEMME 2.1. Soient f, (x) et f, (x) deux fonctions convexes et c;, 
ca deux nombres non négatifs. À lors 


Î (2) = Crfa (x) + Cofa (x) 


est également convexe 


LEMME 2.2 Soient fi (x), i — 1, ..., m, des fonctions converes. 
Il en est alors également de f (x) = max f; (x). 
1<i<m 


LEMME 23 Si f(x) est une fonction convexe, alors 
FOMa + te +... + Am£m) K Mf (21) + Naf (te) + ... 
+. + Anf (Zm) 


pour tous les À, non négatifs vérifiant la condition 


à 
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DEMONSTRATION. Lorsque m = 2, l'affirmation découle de la 
définition d’une fonction convexe. Supposons qu'elle est démontrée 
pour m<k. Montrons qu'elle est juste pour m = k + 1. Soit 
A4 > 0, D —"l k + 1, À + ie + Any = 1. On peut dire 
évidemment que tous les À; sont strictement supérieurs à Ô sinon 
d'inégalité serait vérifiée par hypothèse. 


Ainsi, Âp+! > 0 et 1 — }p+ = }4 + PR +, > 0. 
On a par définition d’une fonction convexe 


ft +. + Antr + su 
(1 — Àx+1) f — +... += — 2) + #1 (tn#). (2.1) 
Mais d’après l’hypothèse de FR 
à 
Mc At. Me 


<= — (1) Pare f (tr); (2.2) 


+ 1 


+. + = 1. 


1— = Âh+1 


La comparaison des inégalités (2.1) et (2.2) donne le résultat cherché. 
Le lemme est démontré. 


LEMME 2.4. Une fonction f (x) est convexe si et seulement si il 
en est également de la fonction d'argument t unidimensionnel quels 
que soient x et p€ E” 


Px p() = f(x + tp). (2.3) 


2. Propriétés de dérivabilité. Soit f(x) une fonction convexe 
continuement dérivable à gradient f’ (x). 


LEMME 2.5. Les affirmations suivantes sont équivalentes: 

1) f (x) est une fonction convexe. 

2) f (te) — f (m1) Z ( (tr), Te — 2) quels que soient r,, x, € ET. 

3) (f’ (x+ Àp}), p) est une fonction non décroissante de À 

Si f(x) est deux fois continüment dérivable, alors 

4) la matrice des dérivées secondes f” (x) est définie positive, i.e. 
{f" (x) p, p) > 0 pour tous les x, p € E*. 


DEMONSTRATION. Commençons par remarquer que si 
Px, P (À) —= Î (x + AP); 
alors p., » (À) est convexe (on l’a montré plus haut) et 


P'zp(Q) = (&+Ap), p), px») =, f(x + Ap)p) (2.4) 
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Montrons que l’affirmation 1 entraîne 2. En effet, vu que 


(CL — À) 1 + Are) (1 — À) f (mi) + A (me), 0 KA <1, 
on à 

f(ri+à Ge 1e) Cf(z)—f(x). 
Le passage à la limite pour À—0 donne 


(" (ras Te — 21) K f (te) — f (mi). 
Donc l'affirmation 1 entraîne 2, ou, plus brièvement, 1 —+ 2. 
Montrons que 2 +3. En vertu de 2, on a pour ., » (À) 
Pe, p (A) (le — M) < Pr, p (À2) — Px. p (M), 
Px, p (ke) (M — de) < Px, p (M) — Px. p (2). 
Ces deux inégalités donnent quand À, > À: 


, Pr. p (A2) —Px, p (41) , 
Pr, p (A1) < A — L' Pr. p (A), 


(+ hp), p) <Ü° (x + hp), p), c.q.f.d. 
E — 1. Soit (f’ (x ea Ap), p) une fonction non décroissante de À. 
Alors pe, p (a) < Px.p (2) pour À > M. Si 0<u< 1, alors 
i 
OZ (a — M) À LG,» (a+ Te — A) — Qi p (a TH (Aa — M))] dr = 
0 
= (1— pu) Pr. p (As) +9 (2) — Pz. p ((1 —H) À + Le), 
1.6. +. P (à) est une fonction convexe de À. Il découle alors du lemme 
2.4 que f (x) est convexe. 
3 +4. Comme Pr. p à) = (f ee u Ap), p) est une fonction non 
décroissante, on à Pr,p (à) > 0, i : 
@, f" (& + jp) p) > 0, (2.5) 
d’où la définie positivité de la matrice f” (x). 


4 — 3. Inversement, si (2. ©) est vérifié, alors pz,p (À) est non 


négative et donc Pr. (À) = (f' (x + Ap), p) est non décroissante. 
Nous avons montré que 1 2 ->3 +1, 4 +3 et 3 +4, ce 


qui signifie l’équivalence des quatre assertions du lemme. 


CoNseQUENCE 2.1. Une fonction quadratique 
f(=7 (x, 41)+ 2 


est convexe si et seulement si la matrice À est définie positive. 

En effet, f (x) est deux fois continüment dérivable et f” (x) — 
La conséquence découle donc de suite de l’affirmation 4 du lemme 2. £: 
2—01608 
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Le lemme démontré fournit plusieurs critères de convexité d'une 
fonction. 


DeriniTioN 2.2. Soit f(x) une fonction convexe définie en un 
point x, et y prenant une valeur finie. Un vecteur g s'appelle sous- 
gradient ou vecteur d'appui en x, à f (x) si on a, quel que soit x, 


Î (x) — f (to) Z (8, z — xo). (2.6) 


On montre que si f (x) est continue en x,, il existe en ce point des 
sous-gradients et l’ensemble des sous-gradients est convexe, fermé 
et borné. Le lemme 2.5 (affirmation 2)) implique que f” (x,) est un 
sous-gradient de f (x) en x, si cette dernière est une fonction dériva- 
ble. La notion de sous-gradient généralise donc celle de gradient. 

La définition aidant, on voit sans peine que si g, et g, sont des 
sous-gradients des fonctions convexes f, (x) et f, (x) au point x, 
alors cg, + cg: est un sous-gradient de la fonction c;f, (x) + 
+ Cofe (x), C1, Ce > 0. Connaissant les sous-gradients de fonctions 
convexes on calcule donc sans difficulté le sous-gradient de leur 
combinaison linéaire. 

Soit maintenant f(x) — max f;(x), où f; (x) est convexe, 

== 


et soient g; les sous-gradients de f; (2) en x,. Le vecteur g 
E— à M£i: 
D À; = 4, M > 0, = 4, es M, À; = 0, si Îi (zo) € f (to), 


est un sous-gradient de la fonction f (x). 

3. Fonctions strictement et fortement convexes. Les fonctions 
remplissant une condition renforcée de convexité jouent un rôle 
ort important en programmation mathématique. 


DeFiNITION 2.3. Une fonction f (x) est dite strictement convexe si 
f(A—Drz+Ay<A—-dDf (ED +MU), 0<L1<1 z2#y. 


Pour une fonction strictement convexe suffisamment régulière on 
a les assertions analogues à celles du lemme 2.5. 


LEMME 2.6. Les affirmations suivantes sont équivalentes : 

1) f (zx) est une fonction strictement convexe. 

2) f (ze) — f (x) >> (” (m1); Ze — M) quels que soient z:, x € E”, 
Ty = Le. 
3) (f’ (x + Àp), p) est une fonction strictement croissante de À. 
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DerinirioN 2.4. Une fonction f(x) est dite fortement convexe 
si, quels que soient x,, x, € E”, 


(2e) << G)+fEd—-vim- Pr, (27) 


où y > 0 est une constante aussi petite qu'on le veut. 
Une fonction fortement convexe est, on le constate aisément, 
strictement convexe, mais la réciproque n'est en général pas vraie. 
Dans la suite nous aborderons des fonctions fortement convexes. 
deux fois continüment dérivables. 


LEMME 2.7. Sif (x) est une fonction deux fois continüment dériva- 
ble, la condition de convezxité forte (2.7) équivaut à 


(f"()r, p)>zmlipl, m>0, (2.8) 


quels que soient x et p € E”. 
La dernière inégalité signifie que la matrice f” (x) est fortement 
positive. 


ConseQuENcE 2.2. Une fonction quadratique strictement con- 
veze f(x) = (Az, 2) + (b,z) définie dans E" est fortement 
convere el inversement. 

DEMONSTRATION. Îl ne faut prouver que la première affirmation. 


Moyennant la condition 2) du lemme 2.6 on se convainc que 
pour tout r #Û 


(Az, x) > 0. (2.9) 

Par ailleurs, 
(Az, z) > À (x, x) = À || zx ||, (2.10) 
avec À la plus petite valeur propre de la matrice des dérivées secondes 
A. La comparaison de (2.9) et (2.10) donne À > 0. Ceci étant, la 


condition (2.10) signifie que f (x) est fortement convexe. 
Soit x, un point arbitraire de Æ”. Considérons l'ensemble 


Y = {z: f(x) <f (&)}. 


LEMME 2.8. Si f (x) est une fonction fortement convexe deux fois 
continüment dérivable, alors Ÿ est un ensemble fortement convexe, 
fermé et borné. 


DEMoNSTRATION. La fermeture de Y découle de la continuité de 
Î (x). 


Démontrons que ŸY est borné. Selon la formule de Taylor 
fe) = f (@0) + (ro), 2 — 20) ++ (1 (D (x— 20), zx), 
2 
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où E=z0+60(17— 210), 6€ [0, 1]. Compte tenu de (2.8) 
Fo) > (2) 27 (20) + (f (0), 2 — 20) + 117 — x0 ll. 
Il en résulte 
11220 12 +(f (x0), z—20) < 0, 
1.e. 


ro <I(F (o), 2 — 20 IIS (co) 1111 2 — Zo |, 
ou 
Irc 2 HE, 
ce qui prouve le caractère borné de Y. 


Etablissons enfin la convexité forte de Y. Soit x,, ze € Y. Utili- 
sons la formule de Lagrange et la condition (2.7), il vient 


(He +y)= (Le) +, n< 
ST)+f Grimm + Mliyle (2.14) 


Ici E= HE + Op, B€[0, 1], M étant la valeur maximale de f’ (x) 


sur ÿ. 
Supposons que f(æ)>f(x). Alors +{f()+f(m)1<f(x). Si 


vire ZIP, il résulte de (2.11) que f( TE +y)<f(m), 
i.e. AT EE ———© +yEY. Par définition cela signifie que Ÿ est fortement 


Le lemme est démontré. 


REMARQUE. La fermeture et la convexité forte de Ÿ se conser- 
vent dans le cas où f (x) est une fonction fortement convexe continue 
ou dérivable. On démontre alors la dernière propriété de Ÿ moyennant 
le fait qu’une fonction fortement convexe continue vérifie sur tout 
ensemble borné la condition de Lipschitz (voir N. Bourbaki [45]). 


LEMME 2.9. Si la matrice f” (x) vérifie la condition (2.8), il 
existe l'inverse f"-! (x) et 


(1 (a)p, P)< ZI pl. 


Si la matrice f" (x) est de plus bornée, i.e. 
(" (x) p, p) < M || p,lf, (2.12) 
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alors 
Pr, > IP? 


&. Fonctions concaves. 
DÉFINITION. Si, quels que soient x, 26 E" et OLALAÀ, on «u 
l'inégalité 
FO + (1 — 2) 2e) 2 f (ai) + (1 — À) f (x): 


la fonction f (x) est dite concave. 

I] en découle que f (x) est concave si et seulement si —f (x) est 
convexe. Toutes les propriétés des fonctions concaves s’obtiennent 
donc sans difficulté des propriétés correspondantes des fonctions 
convexes. 

Par analogie avec ces dernières on définit des fonctions stricte- 
ment et fortement concaves et on étudie leurs propriétés. 


$S 3. Programmation convexe 


La programmation convexe a pour tâche de rechercher le mini- 
mum d’une fonction convexe dans un domaine convexe. La program- 
mation convexe est le chapitre le mieux élaboré de la programmation 
mathématique. 


{. Position du problème. Propriétés fondamentales. Etant donné 
une fonction continue convexe f (x), x € E”, définie pour tous les 
x € E"et un ensemble convexe X, on demande le minimum de f (x) 
sur À, i.e. un point x, tel que 


Î (ce) << f(), z € À. 


LEMME 3.1. Une fonction continue convexe f (x) atteint son mini- 
mum sur un convexe compact À. 


DEMONSTRATION. L'’affirmation du lemme n'est autre qu’un cas 
particulier du théorème connu de Weierstrass aux termes duquel 
une fonction continue atteint son minimum sur un compact. 


LEMME 3.2. Etant donné un ensemble X fermé et une fonction 
f (x) fortement convexe deux fois continûment dérivable, f (x) atteint 
son minimum sur X. 


D£eMonsTRATION . Soit xo € À. Prenons l’ensemble 
Y = {z: f (a) <f (xo)}. 


Il est borné et fermé en vertu du lemme 2.8. 
Considérons l'intersection X f] Y. Il est évident que si x, réalise 
le minimum de f (x) sur À f] Ÿ, c’est également un point de minimum 
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de f (x) sur X. Mais l’ensemble X f\ Ÿ est borné et fermé en tant 
qu'intersection de deux ensembles fermés dont l’un est borné. Aussi 
f (x) atteint son minimum sur À f] Ÿ et, partant, sur À tout entier. 

Toute fonction convexe et strictement convexe n'atteint pas 
son minimum. 


LEMME 3.3. Un ensemble X, © X des points réalisant le minimum 
d'une fonction convexe f (x) sur X est convexe. 


LEMME 3.4. Une fonction strictement convexe atteint son minimum 
sur un ensemble convexe X en un point unique. 


DEMONSTRATION. Soient x, et x, deux points de minimum de f (x) 
sur X. Alors 


f(+utaz) <3f()+ 5 fe) =f (a), 
Tu+rnEX, 


ce qui contredit le fait que x, réalise le minimum de f (x). 


2. Conditions nécessaires de minimum. Soient f(x) une fonction 
convexe continüment dérivable et X un ensemble convexe. Une 
question se pose : si z, est un point de minimum de f (x) sur X, à 
quelles conditions ce point est-il astreint ? 


D&eriNiTioN 3.1. Soit zo EX. Notons K (xs) l’ensemble de 
vecteurs p tels que p € K (xs) si et seulement si il existe un a > 0 
vérifiant zo + ap € À. 

L'ensemble K (x,) s'appelle cône des directions admissibles pour X 
en Zo- 


LEMME 3.5. X (xo) est un cône convexe. Si p € K (xo) et ïxo + 
+ &op € X, alors x, + ap € X quels que soient 0 La &o. 


TH£OREME 3.1. Soit x, un point en lequel une fonction convexe 


continûment dérivable f (x) atteint son minimum sur un ensemble convexe 
X.Ona 


f” (zx) € K% (xs). (3.1) 


JTnversement, si (3.1) est rempli, x, réalise le minimum de f (x) sur X. 


DEMONSTRATION . Supposons (3.1) vérifié en z,. Alors (f’ (x,), p) 0, 
pEK (z,).Si, sous cette condition, zx E X,onap—=zx—1z,€ XK (zx,) 
parce que x, + (x — z,) = zx € À. Donc 


f(x), z—2x) 20, z € À. 
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Or, pour une fonction convexe selon le lemme 2.5, 


f(x) — f (ce) 2 (xx), z — x). 
Aussi 
fa) —f() 20, ze x. 
Il en résulte que x, est un point de minimum de f (x) sur À. 
Démontrons que (3.1) est une condition nécessaire. Soit x, un 


point de minimum. Quels que soient x € X et À, 0<A< 1, on 
a alors 


f((1—à) Le + Az) = f(z, +i(z—2,)) 21 (z,); 
ou 
A Ce LE >0. 


En passant à la limite À +0, on obtient 
(F (te), z — 73) 20, x € À. (3.2) 
Soit maintenant p € K (x,). Alors x, + ap=rEexX,a>>0,ou 


P = + (r—z,). 
Alors 
dE) = (fa) 2—1,)>0, (3.3) 


inégalité qui tient compte de (3.2) et de & >> (. 
Ainsi, l'inégalité (3.3) est vraie pour tout pE K (x,), d'où 
f (xs) € AT (x). 


CoNseQUENCE 3.1. Dans les conditions du théorème, le point 
zx, réalise le minimum de f (x) sur X si et seulement si l’on a l'inégalité 


(A (xs); T — Ty) > 0, zEX. 


En effet, nous venons de démontrer l’équivalence de (3.2) et (3.1). 

Appliquons le théorème 3.1 au cas où X est défini par un système 
d'inégalités linéaires. 

Soient donnés les vecteurs a; € E", i E {7 U F9, F- et F9 étant 
deux ensembles finis d'indices, et les nombres b; correspondants. 
Soit X un domaine défini par le système suivant d’égalités et d'’iné- 
galités 

(a;, z) — bi, KO, i CEST, (ai, z) — b; = 0, i EST. (3.4) 


Décrivons le cône Æ (x.) en un point arbitraire x, € X. Posons 


JT (to) = {Ë: (ai, 0) — bi = 0, iE FT}. 
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Par définition p € K (x) si zo + ap € X pour des & suffisamment 
petits. Or, on voit aisément que x, + «ap € À, i.e. le point x, + æp 
vérifie (3.4) pour & petit si et seulement si 
(&i p)<0, iET” (to); (a, p)=0, LE S°. (3.5) 
Ainsi, le cône X (x) est décrit par le système (3.5) qui se met 
sous forme équivalente 
(— a, p)> >0, 1E JT (to); (CA p) > O, ES), (— &, p)>0, ES. 


En vertu du lemme 1.6, le vecteur yE K° (zx,) se récrit 


y = —u'a;+ > — ua; + > ua, 
ie T7 (xo) iEJ icJ° 


avec ui, uti, ui des nombres non négatifs. Notons ui—u*— ui, 
ES, il vient 
nn À \' i N: î i 0 . A 3 6 
y — Ps u'a— à, u'a, u'>Ù, ie (o)- (3.6) 
iEJ” (xo) ie J0 


TæsoremME 3.2. Soient f (x) une fonction convexe dérivable et X 
un ensemble décrit par le système (3.4). Pour que le point x, réalise 
le minimum de f (x) sur X, il faut et il suffit qu’il existe des nombres 

u', iE T7 U J°, tels que 
f(x.) + > u'a; = 0, ut > 0, ie, u 
à eZ UT 
si(a, r)—bi< O,iEeTT. 
D£MONSTRATION. Le résultat est Ainmédiat à condition d'utiliser 


le théorème 3. 1 et la représentation (3.6) des éléments de Æ* (x) 
et si on pose u* — 0 pour i SJ (z,). 


ConsequEeNcE 3.2. Pour que Le point x, réalise le minimum d'une 
fonction convexe dérivable dans l'espace tout entier, il faut et il suffit 
qu'on ait l'égalité 

f (ze) = 0. 

Conséquence 3.3. Pour que le point x, réalise le minimum d'une 

fonction convexe dérivable sur l’ensemble 

D >0,j€#, 
avec # un sous-ensemble des j = 1,2, ..., n, il faut et il suffit qu'on 
ait Les relations 


AE DO si n=0, EF, 


Of(ze) . Di PE 
5 =Ù si 2? Æ0 ou jé. 
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3. Théorème de Kuhn et Tucker. Les conditions nécessaires et 
suffisantes de minimum que nous venons d'examiner s'appuient sur 
une description abstraite d’un ensemble admissible X sur lequel on 
minimise f (x). Dans une vaste classe de problèmes l’ensemble X est 
défini comme un système d'’inégalités et d'égalités. Le n° 3 donne 
justement les conditions nécessaires de minimum pour ce cas plus 
concret. , 

Soient donnés donc des fonctions convexes f; (x), i — 0, 1, ... 

., m, et un ensemble convexe X. On demande de minimiser f, (x} 
avec les contraintes 


HO SO it, ::: M, 2CX. (3.7} 


TH£orEME 3.3 (de Kuhn et Tucker). Etant donné zx,, point 
de minimum de f, (x) sous les contraintes (3.7), s’il existe un point 
z,E X tel que 

fi (x1) € 0, L — À; -..s M, 


il existe alors des nombres u‘ > 0, i — 1, ..., m, tels que 


hr)+ Du) fte)+ Dufi() zEX, 38 


u'f, (x,) = 0, L — 4, cs M. 
Les conditions citées sont également suffisantes. 


DeFiNiTION 3.2. Les nombres u* figurant dans le théorème 
s'appellent multiplicateurs de Lagrange 


&. Problème dual. Reprenons le problème de minimisation de 
la fonction convexe f, (z) avec les contraintes (3.7). Supposons 


ui >>0,i—1,..., m, fixes. Calculons 
p(u) -. [fo (2) + 2 u'f. (x)]. (3.9) 


Ainsi, la fonction @ (4) (qui peut, à vrai dire, prendre les va- 
leurs —co) est définie pour x => 0. Nous laissons au lecteur le soin 
de s’assurer de la concavité de  (u). 


TÉOREME 3.4. Etant donné u >> 0 et x vérifiant les contraintes 


(3.7), on a 
p (u) < fo (x). 
Si on a les conditions du théorème 3.3, alors 


max @ (4) = min fo (x), 
uZ>0 xeD 


où D est l'ensemble de points x vérifiant (3.7). 
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DEMONSTRATION. On a pour u >0,x7€D 


PU) Pa) + À wifi (2) fo (2. 


Supposons maintenant que nous sommes dans les conditions 
du théorème 3.3. Il existe alors un vecteur u, > 0 tel qu'il vérifie 
les relations (3.8). Mais ces dernières entraînent 


m 


F Co) = fo (xs) + 2 ui: (Ts) = fo (xs). 


Comme œ (u) < f, (x,), il en résulte que le vecteur u, réalise le 
maximum de œ (u) dans le domaine u >0 et 


max ç (4) =: (Uo) = fo (x,) = min fo (2), 
u®0 x€D 


c.q.f.d. 

Le problème de mazximisation de @ (u) sous la contrainte u > 0 
s'appelle problème dual de programmation convexe et u vecteur-variable 
dual. 

Le théorème 3.4 s’interprète maintenant comme suit : dans les 
conditions du théorème de Kubn et Tucker la valeur maximale de 
la fonction économique du problème dual coïncide avec la valeur 
minimale de celle du problème primal, les multiplicateurs de La- 
grange de ce dernier étant solution du problème dual. 

Le problème de programmation convexe se pose souvent comme 
suit : minimiser f, (x) sous les contraintes 


fi (x) < 0, LES, Ïi (x) =0, iE.SN, xzE À. (3.10) 


Ici 7- et {° sont deux ensembles finis d'indices, f, (x), fi (x). iE F7, 
des fonctions de x convexes, f; (x), i € 99, des fonctions linéaires et 
X un ensemble convexe. 

Le dual de ce problème consiste à maximiser q (u) dans les con- 
traintes u' > 0,i € J-,u possédant les composantes u, i E JUIF", 
et 


otu)=inf{fo(r)+ D  uïfi(x)l. (3.11) 
xEX ieJ UT? 


Ainsi, le nombre de variables duales est égal à celui de contrain- 
tes (3.10) et la variable u' correspondant à la i-ième contrainte prend 
des valeurs non négatives s'il s’agit d'une contrainte inégalité et 
des valeurs de signe quelconque dans le cas d’une contrainte égalité. 


9. Problème de programmation linéaire. Le problème de program- 
mation linéaire consiste à minimiser une fonction f, (x) = (&, x) 
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avec les contraintes (3.4) 
(a;, z)—b;, LO, iETT, (a,z)—b; =0, ie SN. 
Ce problème coïncide avec (3.10) si 
fi () = (ai, x) — bi, À — Er. 


LEMME 3.6. Si les contraintes (3.4) sont compatibles, ou bien le 
problème de programmation linéaire a x, pour solution, ou bien la 
borne inférieure de fo (x) = (as, x) sous Les contraintes (3. 2) vaut —0o. 

La démonstration de ce lemme figure dans les cours de program- 
mation linéaire. 

Les conditions nécessaires caractérisant z,, solution du problème 
de programmation linéaire, sont fournies par le théorème 3.2 énoncé 
de façon adéquate puisque f° (x) = &s. 


TH£OREME 3.5. Pour que le point x, soit solution du problème 
de programmation linéaire, il faut et il suffit qu'il existe des nombres 
ui, iC JUS tels que 
(4 LE > 
ie JU 
Si (a, x) —b; < 0, iE JT. 


ia =0,ui>0, ie, ui=0, (3.12) 


Construisons le dual du problème de programmation linéaire. 
On a par définition 


p(u) = he f Le (2) + D uïfi(z)] = 
ie J UŸ) 


= inf as z)+ N, ui((a,zx)—b;)] = 
ieJ UT 


xeE" 
= inf{((cæ+ 2 u'u),z)— 
x€E" ieJ UT 
— YO uïb,siao+ D u'a=0, 
NN #]= J ieJ UT ET US 
iEJ UT { — 00 si d+ >», u'aÆ0. 
iEJ UJ° 
A e problème dual, i.e. maximiser œ(u) dans les condi- 
tions u'=>0, ie J”, équivaut à maximiser 
—  YN, uïb: (3.13) 
ieJ UT ° 


sous les contraintes 


do + SN) O uia=0,u>0, ie Jr. (3.14) 
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TaeorëME 3.6. Si le problème primal de programmation linéai- 
re a une solution, les multiplicateurs de Lagrange sont solution du 
problème dual et la valeur minimale de la fonction économique du 
primal est égale à la valeur maximale de celle du dual. 

A part les contraintes (3.4) le problème de programmation linéai- 
re contient souvent des contraintes de la forme 


D>0, j:#, (3.4) 


où 7 est un sous-ensemble des indices 1, 2, ..., nr . Moyennant le 
théorème précédent le lecteur démontrera sans peine le 


TH£oreME 3.7. Si le problème de programmation linéaire avec 
les contraintes (3.4), (3.4) possède une solution, les multiplicateurs 
de Lagrange correspondant aux contraintes (3.4) sont solution du pro- 
blème dual qui consiste à maximiser 


—  } u'b 
ieJ UŸT° 
sous les contraintes | 
a+ N, ulai>0, je#, 
ieJUY° : 
a+ > ua=0, jE#, u20, 163, 


iEJ UY 
où aj est la j-ième composante du vecteur a;. Le minimum de la fonction 


économique du problème primal coïncide avec le maximum de celle du 
problème dual. 


6. Problème de programmation quadratique. Le problème de 
programmation quadratique est de minimiser une fonction quadra- 
tique 

1 
fo (D = + (x, Cr + (à 2 
sous les contraintes (3.4). Ici C est une matrice n X n symétrique 
définie positive et d un n-vecteur. 


LEMME 3.7 (sans démonstration.) Dans le problème de programma- 
tion quadratique la borne inférieure ou bien est atteinte ou bien vaut —0o. 


THÉOREME 3.8. Pour que le point x, soit solution du problème 
de programmation quadratique, il faut et il suffit qu'il existe des nom- 
bres uï, i E J7 US, tels que 

Cz,+d+ D ua —=0, 
ieJ UT ° 
ui = 0 si (as, zT)— b; O0, iCTJT, 
un >0, ie J-. 
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On le démontre par application immédiate du théorème 3.2. 

Soit maintenant C strictement définie positive, i.e. il existe un 
y tel que (x, Cz) > > y || z |. Elle est alors régulière. et admet un in- 
verse, à savoir C1. Construisons le problème dual 


p(u)= inf [fo(r)+ D u'f;(x)] = 
xeE" 


i€J VU? 
— inf [+ (x, Cr) + (d, x) + u' ((ai, 2) —b) | — 
ii ie JDA 
— inf | — > bi ++ (x. Cx)+ (z, d + >, u‘a) |. 
— ieJ UT ° | | 9 UT? 


En égalant à zéro les dérivées. du second membre trouvons que 
le minimum est réalisé pour 


æ(u)=—Ct(d+ À Ouai). 


ieJ UT? 
Ceci étant, 
pu)=— ui + (a+ D ua, 
ieJTUŸ° 1 J UT 
C1 (a+ S ui )} | (3.15) 
ie J UT 


Le problème dual est. donc. de maximiser (3.15) avec les contrain 
tes ui > 0, i ET. | 


Tusorsme 3.9. Si dans le problème de nn quadra- 
tique le minimum est réalisé et la matrice C est strictement définie posi- 
tive, on a pour ce problème le théorème de Kuhn et Tucker (3.3) et le 
théorème 3.4. Ceci étant, les multiplicateurs de Lagrange du problème 
primal sont solution du problème dual, et si u, est solution du problème 
dual, celle du primal s'obtient par la formule 


z(u)=—C"t(d+ NN ua). | (3.16) 
ie JU" 


$ 4. Conditions nécessaires de minimum 


Le problème général de programmation mathématique consiste 
à minimiser une fonction f, (x), x € E”, sur un ensemble défini par 
le système d'’inégalités et d'égalités 


fi (2) SO, ie TT, fi(z) =0, iE 9, zEX. (4.1) 
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Ici 77 et J° sont deux ensembles finis d'indices. On supposera par- 
tout dans ce paragraphe que f; (x) sont des fonctions continüment 
dérivables à gradient jf; (x). Quant à l’ensemble X, nous nous abstien- 
drons pour le moment de supposer quoi que ce soit à son sujet. 

Ce paragraphe se propose comme tâche principale d'établir des 
conditions nécessaires imposées au point z, qui réalise le minimum 
de f, (x) sous les contraintes (4.1). 


1. Définitions fondamentales. 


DÉFINITION 4.1. Un ensemble D de points vérifiant les contrain- 
tes (4.1) s'appelle domaine admissible. 
Cet ensemble sera supposé non vide. 


DEriINITION 4.2. Une fonction f, (x) à minimiser sur D s'appelle 
fonction économique. 


DeérixiTioN 4.3. Un point zx, vérifiant (4.1) tel que 


Îo (x,) < Îo (x), ù 1 ED, 
s'appelle point de minimum. 


DEFINITION 4.4. On dit que x, est un point de minimum local 
de fo (x) sur D s'il possède un voisinage Q tel que 


ACAESL (x), 2 € DNoQ. 


Dans la suite on considère en général le problème de recherche 
du minimum de f, (x). On conçoit que maximiser une fonction 
f (x) sur D se ramène à minimiser f, (x) — —f(x) sur le même 
domaine. 


2. Conditions nécessaires de minimum. 


DeriNITioN 4.5. Un vecteur p € E” définit une direction admis- 
sible par rapport à l'ensemble X au point x, € X si, quels que soient 
les vecteurs e; € E", i € SN, ei les fonctions r! (À), i € S°, vérifiant la 
condition 


OA) 
PE TS = 0 


(4.2) 


on a 


z+Ap+ D r'(eecx (4.3) 
ic 


pour À >> 0 suffisamment petits. 
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Formulons le résultat essentiel qu'on va démontrer dans ce 
numéro. 


THÉOREME 4.1. Etant donné x,, un point de minimum local 
de fo (x) sur D, si l’ensemble des directions admissibles par rapport à 
X en x, forme un cône convexe K (x,), il existe des nombres u", 
u" E.J7 U.J° tels que 

uf(x,)+ 2  u'fi(z)EK* (x), 
eg UTC (4.4) 
u'fi(x)=0, ief, u'>0, i=0, ieïf-. 

DEMONSTRATION. Considérons deux cas. 


1) Les vecteurs jf; (z,), i € 7°, sont linéairement dépendants. 
Ïl existe alors des nombres u', i € S9, tels que 


D u'f (ze) = 0. 
ieJ° 
Posons u° — 0, u'— 0, i € {-. Nous constatons la validité de tou- 
tes les propositions du théorème. 
2) Les vecteurs f; (z.), i € J°, sont linéairement indépendants. 
11 existe alors des vecteurs e;, i € 9, tels que 
(fi (z,); ej) — (FA l, ÉD: 


où ô;; = 0 si Lt Æ ) et Ô;; "1: 

Soit m le nombre d'indices i de l’ensemble 771) 7°. Considérons 
dans £"*! un ensemble Z défini comme suit. Un vecteur z est élé- 
ment de Z si et seulement si il existe un vecteur p € X (x,) tel que 


2 — (fi (xs), P) si fi(re) = 0, i UT U J° ou i— 0. 


Les composantes z° de z € Z pour lesquelles f; (x,) << 0 sont arbitrai- 
res. Du moment que X (x,) est un cône convexe, on voit aisément. 
qu'il en est également de Z. 

Définissons P. Un vecteur w appartient à P si et seulement si 


u << O0 si fi(zx,)=0, ie FT ou i—0, 
Les autres composantes de w sont quelconques. P est évidemment 
un ensemble convexe. 


Démontrons que Z et P sont disjoints. Admettons le contraire. 
11 existe alors un vecteur p, € K (x,) tel que 


(fi (x), Po) < 0, 
(fi(zs), po) <0 si iE JT et f;(x,) =0, (4.5) 
(fi (x), po)=0, ie". 
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Formons un système d'équations en r° (À), à € J°: 
fi (ze + hpot 2 r'e)=0, ie. (4.6) 
Notons 
Bi, r)= fi (re + po + À r'e;), ie JO. 
Le système (4.6) est alors équivalent à 
ga (A, r)=0, ie J", (4.7) 


qui définit r' comme des fonctions implicites de À. f; (x) étant par 
hypothèse continûment dérivables, les fonctions g; (4, r) et r' sont 
elles aussi continüment dérivables par rapport à À. Dans ce cas on 
calcule facilement que 


MO (f(x), pd 0, 1€ T°, (4.8) 


en vertu de 4.5, 
Hi 0, , 1 à 
2 QD (fi (7,), ep) = 817 (49) 


Désignons par ôg/ôr la matrice de composantes mn, d, 


j E J9. D'après le théorème de fonctions implicites, le système (4.7) 
est résoluble en r pour À petits si la matrice ôg/ôr est régulière. 
r (à) est dans ce cas une fonction de À dérivable, r (0) = O0 et 


ep — 0g \-1 ôg 
= — (SE) +, (4.10) 
avec ôe un vecteur de composant d8i (0, 0) D 1 iné 
ET P antes roi — ans 16e Cas examin 


FE ’ 7x = 0, (4.11) 


où 7 est la matrice unité. Cela découle de (4.8) et (4.9). 


Nous voyons donc que pour À petits sont définies des fonctions 
continüment dérivables r* (, ie J. De plus 


lim = (A) — ri (0) — ]im r° a 
1-0 À 1-0 
en vertu de (4.10) et (4.11). 

Soit maintenant x (À) = x, + Àpo + D r'(A)e;. Par défini- 


= r" (0) = (4.12) 


ie J0 
tion de X (x,) on a alors x (à) € X pour À = 0 petits car po € K (zx,). 
Ensuite, f; (x (A)) = 0, i € J°, du moment que rt (À) vérifient (4. 6) 
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par définition. Poursuivons. On a f, (x (À)) << fo (x,) pour À > 0 
petits. En effet, selon la formule de Taylor 


fo (& ()) = fo (ze) + Go (6), z (À) — z,), 


avec £ un point du segment réunissant x, à z(À). Aussi 


À))— jo(re) es 
REMISE. po) + D HO (EE, es). 
ieJ° 
Comme, en vertu de (4.5), (f,(z,)s"Po ac 2. 
A0 petits, E—2z, et 


fo (z (À))— fo (ze) 
h 


pour 


< 0. 

De même, si ie J” et f;(r,) —0, il résulte de (4.5) 
HO) <O, ie TT, fi (a) = 0. 

Si fi (x) < 0, i E JT, alors f; (x (À)) < 0 par continuité. 


Ainsi, pour à positifs faibles, le point x (à) satisfait à toutes les 


contraintes (4.1) et fo (x (à)) << fo (z.). Or, cela contredit l’hypothè- 
se de x, point de minimum local. 


Vu cette contradiction, les ensembles Z et P ne se coupent donc 
pas. Etant donné leur convexité, on peut les séparer. Il existe par 
conséquent des nombres u, u'E Ÿ Le non tous nuls tels que 


ut à eut E zEZ, uw EP. (4.13) 
990 FUI 

La structure de Z et P permet de faire certaines conclusions sur ui. 

En effet, w° peut prendre, par définition de P, une valeur quelconque 

inférieure à zéro. Il en découle u° => O0, sinon le second membre pour- 

rait être aussi grand qu'on le veut, ce qui contredit (4.13). De même 


u\>O0sif;(r) —=0,ieï-. (4.14r 


Ensuite, si i € .J- et f; (x,) << 0, alors w° est quelconque. Pour 
avoir (4.13) il faut donc que 


ut —O0sif;(z)<0, ie J-. (4.15) 


Faisons tendre w de (4.13) vers zéro de façon que w € P ; compte tenu 
de (4.15) et de la définition de Z, il vient 


(f(x). p}+ D ui(fi(r), p>0, pEK(z), 
ieJ "UT 
ou 
(f(r,)+ D uïfi(z.), p)>0, pEK(z). (4.16) 
ieJ-UJ? 


3—01608 
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Les assertions démontrées (4.14), (4.15), (4.16) sont évidemment 
équivalentes à la proposition du théorème. 


Conséquence 4.1. Si X — E”, pour que le point x, soit mini- 
mum local, il faut qu’il existe des nombres u* non tous nuls tels que 


(a) + À fi (re) = 0 


u>0, ui>0, icJ, u'fi(x)=0, ie TJ" (4.17) 


DEMONSTRATION. Si À — E", toute direction p est admissible, 
i.e. À (x,) = E”. Le cône K* (x,) se compose donc d'un vecteur nul 
et les relations (4.4) deviennent de suite (4.17). 


ConsequENcE 4.2. Pour que le point x, réalise le minimum de 
fo (x) dans le domaine 
r Z 0, JE fs 
où ÿ est un sous-ensemble des indices 1, 2, ..., n, il faut qu'on ait 


Es) 0 si zi—0, je, 
0x) 


Es) 0 si 20, je} ou jér. (4.18) 


Ôz] 


D£monsTRATION. Les contraintes x’ >0, j € #, peuvent se ré- 
crire comme (—a;,x) <0, j € Ÿ, avec a; un vecteur de composantes 
ai — Op, à = 1, ..., n. Moyennant la conséquence précédente on 
établit qu'il existe des nombres u° et ui, j € %., non tous nuls tels que 


u0f:(z,)— D'ua;=0, w,u>0, uzxi=0, jeÿ. (4.19) 
+4 


La première relation (4.19) se récrit 
0 * j 
u° he ) _: D w6,, = 0 


Ô. 
É ief 
ou 
uoThEs Lui, 5c4, °C 0, :gy (4.20 
Ori 0x! 


Il en résulte u° >> 0 car, dans le cas u° = O, il en est également de 
tous les u', ce qui contredit la conséquence 4.1. On admet donc que 
u? = 1. 

(4.20) et (4.19) entraînent immédiatement la conséquence. 


DBriniTION 4.6. Dans le problème de minimisation de f, (x) 
sous les contraintes (4.1) avec À = E”, le point de minimum x, est 
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dit régulier si les gradients f; (x,) pour des indices i tels que iE J7 |j SN, 
fi (x) = 0, sont linéairement indépendants. 


CoNsEQUENCE 4.3. Si x, est un point régulier, on pose u° — 
dans (4.17) et les multiplicateurs de Lagrange u', i € 7 |J S9, sont 
définis de façon unique. 


DeMoNSTRATION. En effet, u° => O0 dans le cas considéré. Car, 
dans le cas u° = 0, en vertu de (4.17) les gradients j; (x,) pour les- 
quels i E J— U PS9, f: (x) = 0, seraient linéairement dépendants. 
Ensuite, conformément à (4.17), u° = 0 si f; (x) < 0. Aussi la pre- 
mière relation (4.17) avec u9 = 1 fournit le développement 


f(z)=— À uïfi(z) 
ET LT 
Xe)=0 


du vecteur fo (x,) suivant les vecteurs linéairement indépendants 
fi (x.) et définit donc de façon unique les coefficients u*. 

Supposons maintenant que le problème (4.1) ne possède que les 
contraintes égalité 


f(x) =0, ie", 


et X — E”". Si x, est un point de minimum de ÿ, (x) pour de telles 
contraintes et si les gradients f; (x,) sont linéairement indépendants, 
les conditions nécessaires de minimum (4.17) prennent la forme 


fit(z.)+ D uïfi(z,)=0. 
ie T° 


L'ensemble des vecteurs p vérifiant dans ce cas la condition 
(Gi (x), p) = 0, ie J", 
s'appelle variété tangente à l’ensemble 
D={z:fi() =0,ies} 


au point z,. 


ConsEQUENCE 4.4. Pour que le point x, en lequel f: (rs), i € S°, 
sont linéairement indépendantes, réalise le minimum de f, (x) sur 
l'ensemble D, il faut que le gradient f(x.) soit orthogonal à la 
variété tangente à D en x,, i.e. si p appartient à la variété tangente, 
alors (f, (x.),p) —0. ÆEn d'autres termes, la projection du vecteur 
Ï, (xz.) sur la variété tangente vaut 0. 


DeMONSTRATION. Si z, est, sous les hypothèses faites, un point 
de minimum, alors 


7! 


Ge) p= — D ut(fi(z.), p=0 : 
ie J° 


, 
V à 
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pour tout p élément de la variété tangente. Inversement, si (f° (z,), p) 
est nul, quel que soit p appartenant à la variété tangente, il existe 
la représentation 


fo (Ta) = pa à uf; (ze); 
ic) 0 


comme cela résulte du lemme 1.6, si l’on décompose chacune des 
égalités (fi (x,), p) = 0 en deux inégalités 


(Gi (x), p) > 0, — (fi (x,), p) > 0. 
3. Problème de minimax. On demande de minimiser la fonction 


f (x) = jan JON (4.21) 


où /; (x) sont des fonctions continüment dérivables et x € E". Afin 
d'appliquer les résultats du numéro précédent ramenons le problème 
de minimisation de f (x) à un problème équivalent de programmation 
mathématique, à savoir on constate aisément qu’à condition d'in- 
troduire une variable supplémentaire x}, x,, point de minimum 
de f (x). est également solution du problème : minimiser g, (x, x"**)- 
— 2"*#1 dans les contraintes 


gi(x, zt)æ=f,(x)—2"*1<O0, i—1,...,m. (4.22) 

La valeur minimale de g, (r, x"*') est alors xr# — f (x). 
Appliquons à (4.22) la conséquence 4.1. Ceci faisant, on tiendra 
compte ]du fait qu'on se place maintenant dans l'espace £"*} des 


variables z!, ..., x", zx"*#, de sorte que les gradients des fonctions 
gi (x, x°**) ont la forme 


ee et mems)el): 


Appliquons la conséquence 4.1; on trouve qu'il existe des nombres 
uu', i = 1. ..., m, non tous nuls tels que 


FITNESS 


ul=>0, i—0, 1,...,m, (4.23) 


ni(fi(r ant) ut (f(x) —f(n) = 0, i=1,...,m. 


La première relation (4.22) donne u° — > u'. Vu quelu' > 0 on 


| 

entire u° => 0 parce que, si u° = 0, il en serait également de tous 
les ui. L'homogénéité par rapport à u‘ des relations (4.22) permet 
d'estimer que u° — 1 
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On a donc finalement le 

THEOREME 4.2. Pour que zx, soit un point de minimum de f (x) 
défini par la relation (4.21), il faut qu'il existe des nombres u*, i — 
— 1, ..., m, tels que 


D uifi (x) —0, 
mi 


À ui— 1, u!>0, i = À, Sosa Il (4.24) 


u'(fi(z)—f(x) =0, :=1,...,m. 


4. Conditions nécessaires du deu\ième ordre. Reprenons le: pro- 
blème de minimisation de;f, (x) avec les contraintes (4.1), À = E. 


Notons 
D uïfi(z). (4.25) 
EJ UT 


Admettons que le point zx,, solution du problème posé, est ré- 
gulier (définition 4.6). En vertu de la conséquence}3 du théorème 
4.4, la première relation (4.17) s’écrit alors 


Lz (x, u) = 0. (4.26) 

Admettons maintenant que toutes les fonctions f; (x) sont deux 

fois continüment dérivables, i.e. il existe les matrices continues des 

dérivées secondes f; (x). Cela définit également la matrice des déri- 

vées secondes Lx, (x, u) de la fonction ZL (x, u) par rapport à x. 

Le point x, étant suppnsé régulier, la relation (4.17) définit les 
multiplicateurs u', i EJ-(JJ, de façon unique. Notons 


o(z)={i u >0, ie}, 
Jr (z)={i fi(2z)=0, ie}. 


En vertu de (4.17), 5 (x,) € 97 (x.). Soit maintenant p vérifiant 
es inégalités 
(fi(z), P)<0, ET (x), i6éTi(z), 4 (4.27) 
(fi (x), p)=0, ie Ti(z,) UT. 


Jp(r)= GET (G)UI: (ir), "p)= 0}. (4.28) 

La régularité de x, détermine l'indépendance linéaire des vecteurs 

fire), iET,(z). On montre donc l'existence d’une fonction 
r (À) EE" telle que 

fi (z (À)) — O, U € 5 (x), (4.29) 

où x(À) = zx, + Ap +r (à), . 20 — 0. On procède comme 
dans la démonstration du théorème 4.1. 


L (x, u)= f(x) + 


Posons 
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Si iéJh(r.) on a soit f;(x,) < 0, soit (fi (x,), p) < 0, ce 
qui garantit dans les deux cas l’inégalité f; (x (À)) << 0 pour À petits. 
Ainsi, pour À petits le point x (À) vérifie toutes les contraintes (4.1), 
X = E". On en conclut, compte tenu de (4.27)-(4.29), 

fo (æ ()) = L (& @), u). 


car siu 0, on a f; (x (À)) = 0 en vertu de (4.29). Par ailleurs, 
(4.17) entraîne f, (x,) = L (x,, u). Etant donné que z (à) vérifie 
toutes les contraintes (4.1) et que x, réalise le minimum de f, (x) 
sous ces contraintes, on obtient maintenant pour À petits 


L(z(à)},u) > L(z,,u) 


Mais en développant L (x (À), u) suivant les puissances de À aux ter- 
mes du second ordre infinitésimal près on obtient 


L(x(), u)=L(z, u)+(Li(s, u), (M) —2)+ 
++ (LR EU), WGM-z)z—z)>L (Es, u). 


où £ (4) est un point du segment joignant zx, et x (À) de sorte que 
E (À) —z, pour À +0. Utilisons (4.26), nous obtenons 


AL (EG, 0) (p+7@), p+ 0) 20. 


En divisant par À? et en faisant tendre À vers zéro on a en définitive 
(Lez (ze, u) p, p) > 0. 
Nous venons de démontrer le 
THeoremME 4.3. Soient f; (x) des fonctions deux fois contint- 
ment dérivables et x, un point régulier de minimum de fo (z) dans les 
contraintes (4.1), X = E". Il existe des nombres ui, i € 3- |J 3°, 
tels que 
Li(r,,u)=0, u'>0, i€J-, u'fi(x,)=0, ie, 
(Lx (x, u)p, p)20 


pour tous les p vérifiant les inégalités (4.27). 


s° 


et 


$ 5. Certains renseignements complémentaires 


En analyse mathématique on considère la formule de Newton- 
Leibniz établissant la relation entre une fonction scalaire f (x) et sa 
dérivée. Cette formule se généralise au cas de fonctions opératorielles. 

Si F (x) est une fonction opératorielle dérivable définie sur un 
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ensemble convexe ouvert Q E E"et zx, x + h € Q, alors 
1 


F(z+h)—F(2)= | F'(z+ ah) hda. (5.1) 
0 

Pour la démonstration de cette formule (qui est également valable 
dans le cas d'opérateurs définis dans des espaces fonctionnels) voir, 
par exemple, A. Kolmogorov et S. Fomine [82]. 

Voici une autre propriété des fonctions opératorielles. 

Si F (x) est une fonction opératorielle dérivable non linéaire, on a, 
quels que soient x, h, y € E”, 

Fa+h—F(n=(FGE+0bDhy, 001 (5.2 


C’est la formule de Lagrange pour les opérateurs (ou la formule 
généralisée de Lagrange). Elle est démontrée (pour des opérateurs 
de forme plus générale) p. ex. dans la monographie de M. Vainberg 
{3; 1]. Dans les chapitres qui suivront nous nous servirons souvent 
de la formule dej Taylor avec le reste sous forme de Lagrange. 

Si f (x) est une fonction deux fois continüment dérivable sur un 
ensemble convexe Q, on a pour tous les x, x + h € Q et « E [0,1] 


f(z+ah)—f(x)=a(f (z+ ah), h) 


et 
f(2+ oh) =f (x) +a(f' (2), h)+ (f(x + @04h) h, R), 
avec 60,, ŒE1[0, 1]. 
COMMENTAIRE 
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dimension finie sont décrites par S. Karlin [79], G. Zoutendijk [104; 1], H. Künzi 
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CHAPITRE II 


MÉTHODES DE MINIMISATION 
DE FONCTIONS SANS CONTRAINTES 


Le présent chapitre est consacré au problème de minimisation 
d'une fonction f(r) définie dans l’espace euclidien n#- dimensionnel 
E". Ainsi, x est partout dans ce chapitre un n-vecteur. 

On fera appel à des processus itératifs du type 


Zh+1 = Th À AnPhs (0.1) 


où pr détermine la direction de déplacement à partir du point x, et 
a, est un facteur numérique dont la grandeur donne la longueur du 
pas dans la direction p:. 

On définit le processus (0.1) en indiquant les procédés de cons- 
truction du vecteur p, et de calcul de «x, à chaque itération. La 
façon dont on construit ce vecteur et définit &, détermine directe- 
ment les propriétés du processus : le comportement de la fonction 
sur les termes de la suite {x;,}, la convergence de la suite vers la 
solution, la vitesse de convergence, etc. D'autre part. le volume 
de calcul et les contraintes imposées à la fonction à minimiser dif- 
férent selon les procédés de formation de p, et de «x. 

Voyons les principes qui vont nous guider dans le choix de la 
direction de déplacement et de la grandeur du pas. 

Pour s'approcher du point x, (dans le cas général, c’est un point 
en lequel ont lieu — peut-être avec une certaine précision — les 
conditions nécessaires d'extrémum de f (x)), on se déplace naturelle- 
ment à partir du point x, dans la direction de la décroissance de la 
fonction, i.e. dans la direction de descente. Si zx, n'est ni point de 
minimum ni point stationnaire, il existe une infinité de vecteurs 
p déterminant la direction de descente à partir de x, et chacun d’eux 
est défini par la condition (pour f (x) dérivable) 


(F (zx), P) < 0. 


Cela découle des considérations suivantes. 
Soit zx — x, + ap. Moyennant le développement de Taylor de la 
fonction autour du point x; (on suppose évidemment que celle-ci 
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est dérivable un nombre suffisant de fois), on obtient la représenta- 
tion 


ja)=f(m)-a( + ERP, D). 


Onaicifs = f" (tx), fre = f” (Ze), Tue = Tr + 8 (x — 22), 0 E [0,1]. 
Dans ce chapitre nous nous servirons souvent de ces désignations. 
afin d’alléger l'exposé. 

Si (f,, p) << 0, tout au moins pour de petites valeurs du paramèé- 
tre &«, on a f (x) << f (x;) car le signe du second membre se définit. 
alors par un terme linéaire par rapport à @. 

En choisissant de diverses manières la direction de descente et le- 
facteur &;, on trouve divers algorithmes de minimisation. 


$ 1. Méthodes du gradient 


!. Méthode de la plus grande pente. Le plus simple est de choi- 
sir une direction p, vérifiant la condition (f£, pr) << 0 (i.e. une di- 


rection de descente de f (x)) en posant p, = — fi. 
Le processus itératif 
Lui = Th — nf (zx), ax >> 0,k = 0,1, ..., (1.1) 


ainsi obtenu s’appelle méthode de la plus grande pente ou du gradient. 
J1l s'écrit en coordonnées 
thyt = Th — Gp 21), i—1, 2, 


k AJ 


es Pl. 


La méthode utilisant la plus grande pente est actuellement un 
procédé de minimisation parmi les plus connus. Sa popularité s’ex- 
plique essentiellement par sa simplicité relative et par la possibilité 
d'aborder une très vaste classe de fonctions. 

Etudions les propriétés de l'algorithme (1.1) et commençons 
par la technique de choix du facteur scalaire &:. 

4) Choisissons une valeur de & (la même pour toutes les itéra- 
tions) et fixons le point z = x, — af,. 

2) Calculons f (x) = f (x, — afx). 

3) Testons l'inégalité 


Îf (x) — f (mr) < ea (fs, pr), (1.2) 


0 << eg << 1 est une constante quelconque (la même pour tous les 
= 0,.1:.::4): 

4) Si (1.2) a lieu, la valeur de & est prise pour valeur cherchée : 
&r — @&. Dans le cas contraire, on fractionne « (en le multipliant 
par un nombre arbitraire À << 1) tant que l'inégalité en question. 
n'est pas satisfaile. 


oi 
k 
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Ce choix de &«, demande une motivation: il faut établir les con- 
ditions d’existence des valeurs non nulles du paramètre & pour les- 
quelles on a (1.2). On démontre notamment le 


THEOREME 1.1. Si une fonction f (x) est minorée, son gradient 

f’ (x) vérifie la condition de Lipschitz 
LF @—f USSR Iz— y (1.3) 
quels que soient x, y € E”, et le choix de a, s'effectue de façon décrite, 


alors, quel que soit le point initial x,, on a pour le processus (1.1) 
|| fn | 0 lorsque k —+- 00 


DEMONSTRATION. Selon le théorème de la moyenne 
f (2) — 1 (@r) = (tre), z — 2). (1.4) 


OÙ The = Zn + 60 (x — 24), 0 E [0,1]. L'indice « kc »(« c») désignera 
partout dans la suite un point intermédiaire au segment correspon- 
dant. 

L'égalité (1.4) se transforme en 


f (2) — fn = Un TZ — 2) + (fre — fhs Z — 2). 

D'où. vu que x — zx = — af, et utilisant (1.3): 
f(a)—fh<—a(fi, f)+aRlri— 2 || fl 
<—alfhilP+aRl]z-2 | |f=alf# ir (—1+axR) 

Cette estimation montre l'existence de valeurs « -£ 0 telles que l'iné- 
-galité (1.2) soit valable: il suffit de choisir & de sorte que —1 + 


+ aR < — e, ce qui est parfaitement possible parce que R est 


borné et 0 < g << 1. Par conséquent, on a (1.2) tout au moins pour 
a < Le . En choisissant &; par l'algorithme cité on obtient donc 


fra — fa < — ea || fa |, (1.5) 
i.e. fn — fa << O0 pour tout Æ (si || f, || 0). La fonction étant 
-minorée par hypothèse, la dernière inégalité entraîne pour Æ — co 
fn:1 — În —0. (1.6) 

I] résulte de (1.5) 


TS (1.7) 


Notons à présent que l’algorithme décrit de choix de &4 garantit 
4, Z à > 0 quel que soit 4, le rôle de œ étant tenu par toute cons- 


tante au plus égale à <—® puisque l'inégalité (1.2) (ou (1.5)) est 


nécessairement remplie (nous l’avons déjà dit) pour « — — | 
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Compte tenu de cette remarque, il découle des conditions (1.6) et 
(1.7) que || fx || 0 pour k# —+ oo, ce qui démontre le théorème. 
La classe de fonctions satisfaisant aux exigences du théorème 1.1 
est fort vaste. De telles fonctions peuvent en général être dépourvues 
de points de minimum, elles peuvent présenter des minima locaux, 
des points-selles, etc. Le théorème 1.1 montre que la méthode du 
gradient garantit la convergence pour la fonction soit vers la borne 
inférieure inf f (x), soit vers la valeur de la fonction en un point sta- 


x 

tionnaire. On a également convergence de la suite {x,} vers un point 
stationnaire (quand il existe), mais déterminer sa vitesse sous les 
conditions imposées à la fonction par le théorème 1.1 est chose dif- 
ficile. Dans des conditions suffisamment sévères imposées à la 
régularité et à la convexité de la fonction, non seulement on démon- 
tre la convergence de la suite {r,}, mais aussi on apprécie la vitesse 
de convergence. 


TH£OREME 1.2. Soit f(x) une fonction deux fois continûment 
dérivable, sa matrice des dérivées secondes vérifiant les conditions 


mliyP<C@y y) <MIylF M2zm>0, (18) 


quels que soient x, y € E", et la suite {x,} étant construite par la méthode 
(1.1), où «4 est choisi de façon décrite plus haut. Quel que soit le point 
initial zo, on a alors x, x, f (xx) —+f (x), où x, est un point de 
minimum (unique) de f (x). 

La vitesse de convergence est évaluée par 


fa—1<0 [fo—f,], Il Th — Le ICE, (1.9) 
C<oo, 0<q<i. 


D£EMONSTRATION. L'existence et l’unicité du minimum de f(x) 
dans les conditions du théorème découlent des résultats du lemme 
2. 2. Il nous reste donc à démontrer la convergence de {7,} vers 

. et à obtenir les estimations (1.9). Etablissons d’abord la deuxième 
de ces dernières. Moyennant la formule de Taylor, on a 


f(z)= fe) + (f (&h 2 — 7) +5 (re) (ze 2), 2, —2), 
d'où, compte tenu de (1.8) 
ff) (@), 22) TS lz-z ÈS 
Sfr z Sr x, IP. (1.10) 
Par ailleurs, du moment que f’ (x,) = 0, 


f(@)—f(2)= 25 (za) &—2), z—2,), 
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c'est pourquoi, en vertu de (1.8), 
Pr PS D SSI (411) 
Utilisons la première inégalité (1.11) et (1.10) ; nous établissons que 
Nz—z, ge, (1.12) 
et la dernière inégalité (1.11) entraîne 
Me z, > 1f (© —f a). 
Compte tenu des estimations obtenues, (1.10) s'écrit comme 
ff) MOI T6), 
d'où 
LEZ (14) 1) — 1). (1.13) 
Introduisant cette estimation dans l'inégalité (1.5) nous trouvons 
fan —fn< —eoum (145) (af). (1.14) 
Sous les hypothèses du théorème 
f(x) —f (ra) = (is 2— 2) + 5 (fie(r— mn), 2— 2) = 


= al fi l+ SE if HE —a(1— ST) 1 fi lie. 


I] s'ensuit que l'inégalité (1.2) a nécessairement lieu si ji - >> e, 


; —  2(1—E€) 
1.e. AK = 7 — 


. Ceci étant, il résulte de (1.14) 
fra fe 1—eaum (14) (af) <a (x — 1), 


où q—1—eum (1+-37)<1, i.e. 


(fn —1,) LT (fo— f,): (1.15) 
Puisque & 109, on a 
2 (1—E) m mi 
g=1 M (1+ M } 
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ce qui implique que la valeur minimale Gin de la raison de la pro- 
gression est atteinte pour & — 7 de plus 


Gin = — 5 (14). 


Il serait donc bon de poser & = 1/2 dans la condition (1.2). L'esti- 
mation (1.15) conjointement avec la première estimation (1.11) 
permet d'établir la convergence de la suite {r,} vers le point de 
minimum et d'évaluer sa vitesse : 


az (2) re (2) Gore que Ca. 


Le théorème est démontré. 

Quand nous analysons la démonstration ci-dessus, nous voyons 
que l'estimation (1.15) a été en fait obtenue à l’aide des seules con- 
ditions (1.2) et (1.13). On conclut donc que la classe de fonctions 
vérifiant cette estimation est en réalité beaucoup plus vaste que 
celle des fonctions satisfaisant aux conditions (1.8), à savoir on a 
(1.15) pour toutes les fonctions remplissant les conditions du théorè- 
me {.1 et la condition 


IF HIFZél( —f,1 ô>0. 


Dans ce cas la démonstration de (1.15) est en fait indépendante de 
l'existence du minimum: on estime que jf, = inf f (x) sans se de- 
mander si la borne inférieure est atteinte ou non. Il convient tout 
de même de souligner que les fonctions de cette classe présentent un 
point de minimum (pas forcément unique), que la suite {x,} con- 
verge vers un point x, et que la vitesse de convergence est évaluée 
par la deuxième inégalité (1.9). 
En effet, utilisant (1.1) et (1.7) on obtient 


tas — 2 = of I fa (fa — fes) 
Sfr) EP [fo—f,1E Cid. 


Ici Gmax 6St la valeur maximale du paramètre à partir de laquelle on 
commence le fractionnement. Ceci étant, on a pour tout m > k 


m—i m—1 7/2 
1/2 1 
[m2 Drum IRC D gi 
imh fimh 1—9 


d'où ||Zm—zx|l—0 pour k—>00, i.e. sa suite {x,} converge (vers 
un point de minimum +,); de plus 
li c!/2 q*/2 k/2 
ze — 2x = dim || 2m — 24 Ci 77e = C29 L 
mM—00 —q 
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2. Certaines variantes de la méthode de la plus grande pente. 
Le procédé décrit de choix du paramètre a; dans le processus (1.1), 
procédé lié à la vérification de l'inégalité (1.2), n’est pas le seul pos- 
sible. Nous allons examiner plusieurs autres techniques de choix 
de «x dont chacune est associée à une méthode du gradient. En dé- 
montrant les théorèmes 1.1 et 1.2 on a établi que (1.2) a forcément 


lieu pour a < 1e (théorème 1.1) ou pour a < hrs à (théorème 


1.2). C'est justement cette circonstance qui a permis de démontrer 
la proposition sur les propriétés de la méthode (1.1) en choisissant 
x par la condition de validité de (1.2). Connaïissant les constantes 


R ou M caractérisant la fonction à minimiser f (x), dans la méthode 
(4.1) on peut prendre à l'avance a; = &@, où 0<@ < = ou 


0<a< 2) ,. et les théorèmes 1.1 et 1.2 restent en vigueur. 


Dans cette version de la méthode du gradient on arrive à préciser 
la grandeur de la raison q dans les estimations de la vitesse de conver- 


gence (1.9). 

TueoreME 1.3. Si f(x) vérifie les conditions du théorème 1.2 
et si dans la méthode (1.1) ax = a, 0 < a < a, la vitesse de conver- 
gence de la suite {xz,} s'évalue par 

Î Tr — IEC Î To — L |f, 
qg=max{|1—aml|, |1—aM |}, 
la valeur minimale a au étant atteinte pour a = nee 
{min — Fm P _ M+m 
DEMONSTRATION. On a 
tnt — 2e = (ar — afr — Tes The —7,) = 
= (tx—1,—Q(fn—fs), Tri — 2). 
Utilisant la formule de Lagrange pour les opérateurs (1.5.2) nous 
obtenons 
(æ (Fa or La) Th4+1 — z,) —— (œfke (Ta — 2): Th+1 — Le): 
Vu cette égalité 
] Th+1— Le = ((7]— œfhc) (zr — Ts)» Th Le) 
|| — fe || | Ze — Ze M Tata — 2 ||, 
i.e.  — - | . 128 
I Zn+s — 2 SIT —- af lzr 2 = grrr H. 


En vertu des conditions (1.8), 
g=|l—0afrll=max{|{—am|, |1—aM|} 
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Sur l'intervalle (0, 2/M) la fonction linéaire 1 — «M change 
manifestement de signe, et la valeur {nn (&) est donc atteinte quand 


1 — am = — _ — aM), i.e. «a — EL auquel cas on a évidem- 
ment Gain = WE c.q.f d. 
Notons que lorsque & — PET la première estimation (1.9) 
est améliorée comme suit : 
fut <( EE) Gin. (1.16) 


Indiquons un autre procédé de choix de la longueur du pas. On 
peut choisir &, à partir de la condition de minimum de la fonction 
dans la direction du déplacement, i.e. ce &, doit garantir la condition 


Fr —ufx) = ms or (Zn — af) (1.17) 


Avec ce choix du pas, on conserve tous les Sésultats relatifs aux 
propriétés de la méthode (1.1) (voir plus haut); de plus la vitesse 
de convergence s’évalue de façon plus précise. 

Démontrons une affirmation analogue au théorème 1.1. 


THeOREME 1.4. Si f(x) vérifie les hypothèses du théorème 1.1 
et si dans la méthode (1.1) «, est choisi à partir de la condition (1.17), 
alors || f, || 0 pour k —+ oo, quel que soit le point initial zx. 


DEMONSTRATION Comme dans le théorème 1.1, on obtient l’esti- 
mation 


f(2)—f(n)= —a | fa (fre — fr fi) 
<—Q || fx + GR 1] fr ||. 
La fonction (a) = —«x||fx Een atteint son minimMunr 
7H. Puisque &?R|| fi IF 


majore —@(frc— fn; fn), il est clair que la valeur de &, satisfaisant 
à la condition (1.17) est au moins a», et 


IL fa 1 
fn — 5% (1.18) 


D'où, à force de raisonner comme dans le théorème 1.1, |] f; || —0, 
c.q.f.d. 

Dans cette méthode du gradient à à pas choisi à partir de la condi- 
tion (1. 17) les estimations (1. 3) se démontrent comme dans le théorè- 
me 4.2, à cette différence près qu'on utilise l'expression (1.13) dans 


l'estimation ‘frs, — fr el fs: |P qui s "obtient de même que 
(1.18). Nous mènerons cependant la démonstration en nous appuyant. 


pour mio = 37: P(@min) étant égal à — 
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sur les résultats du théorème 1.3. Nous obtiendrons ainsi une valeur 
plus exacte de g, ceson de la progression. 


Soit Ts] = T4 — 7h on a alors l'estimation (1.16) : 


Ge) (EE) if). 


Si l’on choisit x,,, moyennant la condition de minimum dans la 
direction de déplacement, alors 


fGnu)— 1 (5) ST Gr) 1) (TE) 


(fo — f4)- 


Faisons recours aux estimations 7 il vient 


M—m \2(R+1) 
<(FFx ) 


M+m 


M— 2+ 0 M 
Mana LE au) SL (GE) oz IE 


ou, finalement, 
Tri — 2, IC ( 


« M \1/2 
où C=(—) lzo—z, il. 


m 


M—m ii 
M-m 


On a donc lel 


THÉOREME 1.5. Si f (x) vérifie les hypothèses du théorème 1.2 et 
si'dans la méthode (1.1) &, est choisi à partir de la condition (1.17), 
la suite {x,} converge en progression géométrique de raison q = en 
vers le point de minimum. | 

C'est justement à la variante de (1.1) avec le pas choisi par {a 
condition de minimum dans la direction de déplacement qu'on donne 
souvent le nom de méthode de la plus grande pente. 


3. D’autres méthodes du gradient. Soit F(x) une matrice symétri- 
que arbitraire vérifiant les conditions 


pPIyF<F@y y <RIYIF p>0, (1.19) 


pour tous les x, y € E”. Si l'on choisit un vecteur p = — F (x) f” (x), 
alors (f” (x). p) = — (f", FF) < — p || f" IF << 0 sous la condition 
|| f” (x) | Æ 0. Ainsi, le vecteur p — — F (x) f” (x) définit une direc- 
tion de descente de f (x). Fort de ce résultat, on construit pour mini- 
miser f (x) le processus itératif 


The1 = Th — QRFRf" (tr), ax >> 0, k = 0, 1, 


avec {F,} une suite de matrices arbitraires vérifiant (1.19). Afin de 
se conformer à l'exposé ultérieur de ce chapitre (plus précisé- 
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ment, pour ne pas contredire le symbolisme adopté), on considérera 
le processus 


Thyi = 2h — GnFrffn Gr > 0, (1.20) 


où figure l’inverse de la matrice F,. Cela est absolument sans impor- 
tance car si F, vérifie les conditions (1.19), son inverse satisfait 
(voir lemme 1.2.9) à 


L 1 
my (F y DEMI m0, Mi (121) 


et donc 
(fes Pr) = — (ns Fr) < — mu || RP KO. (1.22) 


A diverses suites {F;'} correspondent des processus itératifs diffé- 
rents. 

Quant à l’idée de la méthode (1.20), son étude n'offre aucun élé- 
ment nouveau par rapport à la méthode « pure » du gradient (1.1). 
Tous les résultats obtenus pour celle-ci se conservent pour la méthode 
(1.20) sous les mêmes conditions imposées à la fonction à minimiser 
et le mème procédé de choix du pas. La seule différence, qui est 
d’ailleurs insignifiante, tient à la démonstration des affirmations 
correspondantes. On conçoit également que les valeurs numériques 
des paramètres de (1.20) diffèrent de celles des paramètres analogues 
du processus (1.1). C'est le cas en particulier de la grandeur de q 
(raison de la progression) dans les estimations de la vitesse de con- 
vergence. 

Arrêtons-nous sur des résultats de la méthode (1.20) dont nous 
nous servirons dans la suite. 


THÉOREME 1.6. Les résultats du théorème 1.2 restent valables 
pour la méthode (1.20). 


DÉMONSTRATION. Si z—2,+apr, Où px = — Fifs, alors 


ff (m)=a (fé, pa) + É (ficpns Pr) 


<a (fi, px) (1 + AE ). 


Mais compte tenu de (1.19) 


(hs Pr) = —(Fsprs Pr) < — P || Pr |Ë. (1.23) 
Par conséquent, 


(e)—f (a) <a Gin) (1— 5 À). 


4—01608 
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11 s'ensuit nécessairement l'inégalité (1.2) si 1e, ie aa — 
_2({1—e) 
M 


Puisque (f:, px) < 0 pour || fi | 0, la condition 
fn+1 — fn <'EQr (fr, Pn) (1.24) 


entraîne frs, << fr. Utilisons (1.24) et le fait que f (x) est minoré 
et établissons, comme || f; || 0 dans le théorème 1.1, que (f,, px) 
tend vers zéro pour * —> oo. Cela signifie, en vertu de (1.22), que 
Il fs 1 0. D'où, vu la convexité forte de f (x), la convergence de 
(1.20) vers la solution z,. Pour évaluer la vitesse de convergence 
În — fes Tr —T,, représentons l’inégalité (1.24) moyennant (1.22) 
comme fans — fr < — exam || fx |. Exprimant ce ||f; || à l'aide 
de l'inégalité (1.13) et répétant mot à mot les raisonnements du 
théorème 1.2, nous établissons la validité des estimations (1.9) pour 
la méthode (1.20). La raison de la progression est alors 


Fr mm (it). 


et elle atteint sa valeur minimale pour e— 1/2: 
Fo2m 
Gin = 1— nr (1+). 


Le théorème est démontré. 
La démonstration ci-dessus entraîne qu'il y a toujours convergen- 


p. Nous avons donc justifié le choix de «&,. 


q—=1—eamm (1 + )=1—e 


ce du processus (1.20) si on pose ax = &, 0 << a<+ p (variante 


à pas constant). Les mêmes raisonnements que dans le théorème 1.3 
nous conduisent à l'estimation 


Il Th+1 — Le Î < I Z — à Fr'fre Il Il Tr — Le Il. 


Il est cependant impossible d’en déduire, à l’instar du théorème 
1.3, l'estimation de q parce que la matrice Fi . n’est en général pas 
définie positive (cette dernière propriété n'a lieu que pour F5! et 
f” (zx) permutables). 

On considère une méthode (1.20) avec un pas choisi à partir de 
la condition de minimum de f (x) dans la direction de déplacement. 


THÉOREME 4.7. Si f(x) vérifie les conditions du théorème 1.2 
et si, dans la méthode (1.20), le paramètre a, est choisi par la condition 


Î (Tr + Pr) — qua RCA au Pr): 


alors la suite {za} converge en progression géométrique vers le point de 
minimum. 
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Adoptons le schéma de démonstration suivant. En utilisant le 
développement taylorien au second ordre de la fonction autour du 
point x, et en raisonnant comme pour le théorème 1.4, on obtient 
l'estimation 


1 (fn Pr 
fui — fn — MIRE: 


En vertu de (1.22) et (1.23) elle est équivalente à 


1 pmill fs | 
fau —h< 5 —57— 


Représentons || f; || moyennant l'inégalité (1.13) et répétons textuel- 
lement les développements du théorème 1.2. On ne réussit pas ici 
à améliorer la valeur de q parce que cette valeur est forcément su- 
périeure à celle de la méthode de la plus grande pente. 

4. Analyse qualitative des méthodes. Comparons les méthodes 
du gradient que nous venons d'examiner et exposons certaines con- 
sidérations sur la qualité de ces algorithmes, i.e. sur leur efficacité 
dans la recherche du minimum. 

Nous avons étudié trois versions de la méthode (1.1) qui diffè- 
rent par le choix du pas et dont les propriétés sont voisines. Ces mé- 
thodes sont utilisées pour minimiser les fonctions d’une même classe 
et la vitesse de convergence est (quand on réussit à l’évaluer) quasi 
identique elle aussi. En résolvant le problème, il faut donc recourir 
à la version la moins laborieuse. Le coût de chaque itération des 
variantes en question ne diffère évidemment qu'à cause d’une défi- 
nition différente du paramètre &,. La variante à pas constant a; = & 
exige le moins de calculs par itération (on ne calcule alors que le 
gradient f’ (z:)). Or, ce choix de «a; est pratiquement impossible 
dans la plupart des problèmes du fait qu’on est d'habitude dans 
l'ignorance des valeurs des constantes À, M caractérisant la fonction. 

Comparons le coût des procédés de choix du pas liés avec la 
vérification des conditions (1.2) et (1.17). Nous avons établi que 
dans le cas où f (x) remplit certaines conditions (théorèmes 1.1, 
1.2). l'inégalité (1.2) a manifestement lieu pour des &, suffisamment 
petits au moins (définis par la grandeur des constantes R, M). Aussi, 
quelle que soit la valeur initiale &h2, à partir de laquelle on commen- 
ce à vérifier l’inégalité (1.2). celle-ci a lieu au bout d’un nombre fini 
de fractionnements du paramètre, i.e. le choix d'un «4 nécessaire 
exige qu'on calcule la fonction un nombre fini de fois. Quant au 
choix de az à partir de la condition (1.17), c'est en général une pro- 
cédure en dimension infinie. En fait, on définit le point de minimum 
dans la direction de déplacement en calculant la fonction un nombre 
fini de fois. Il est clair qu’une solution plus ou moins exacte d’un 
problème de minimisation à une variable demande, un volume de 
calcul plus important que la vérification de l'inégalité (14.2). On 


4% 
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voit donc qu'on préférera le procédé de choix du pas lié avec cette 
vérification. 

Tout ce que nous avons dit reste vrai pour la méthode (1.20). 

Il est uaitile de rappeler au lecteur que nos raisonnements ne 
se basent que sur les propriétés les plus générales de la fonction à 
minimiser et des algorithmes étudiés et que nous ignorons ce que 
telle fonction concrète a de spécifique. Nos recommandations n'ont 
donc pas force de loi. Nous prions le lecteur de se le rappeler tout 
au long de cet ouvrage. 

Passons à la question de l'efficacité des méthodes du gradient. 
Dans le cas de fonctions régulières et convexes (qui sont suffisamment 
bonnes du point de vue de la résolution du problème de minimisation), 
les méthodes du gradient convergent en progression géométrique vers 
le minimum. La grandeur de la raison de la progression dépend, 
en particulier pour des fonctions fortement convexes, des valeurs 
pr'pres extrêmes M et m de la matrice des dérivées secondes de f (x). 
La raison g ne sera suffisamment petite que si m et M diffèrent peu, 
i.e. si la matrice f” (x) est bien conditionnée. Les méthodes du gradient 
convergent dans ce cas très rapidement. La pratique du calcul numé- 
rique connaît cependant très peu de tels problèmes. On a en général 
à minimiser des fonctions ayant la matrice f” (x) mal conditionnée 


(F < 1 . Plus le rapport m/M est faible, plus la raison de la pro- 


gression g est proche de l'unité et plus les méthodes du gradient 
convergent lentement. On peut interpréter géométriquement ce fait. 
Avec la diminution du rapport m/M les surfaces de niveau de la 
fonction à minimiser (i.e. les surfaces f (zx) = C) s'allongent et en 
la plupart des points la direction du gradient jf” (x) s'écarte de plus 
en plus de la direction de déplacement vers le point de minimum. 
C'est là la cause du ralentissement de la convergence. L'exemple le 
plus tangible est en l'occurrence une fonction quadratique stricte- 


ment convexe f(x) dans l'espace E*, p.ex. f=5(5+$). La 


matrice des dérivées secondes de cette fonction a tous ses éléments 
constants, sesj surfaces de niveau sont des ellipses d'équation 
1 
2 
des ellipses. Les valeurs propres de la matrice sont {/a° et 1/b*°. Plus 
le rapport a?/b? diffère de l’unité, plus les lignes de niveau sont allon- 
gées le long de l’un des axes OX ou OY et plus de pas il faut faire 
dans la direction de l'opposé du gradient à partir d’un point arbitraire 
(Zo, Yo) pour arriver dans un voisinage suffisamment restreint du 
point de minimum. 

Les méthodes du gradient étant à convergence lente, il est im- 
possible d’aborder à leur aide les problèmes complexes de minimisa- 
tion puisque même avec des machines modernes rapides cette résolu- 


2 y° ; —— LL 
(S+ 5) — C et le point de minimum coïncide avec le centre 
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tion demande trop de temps. Aussi continue-t-on d'élaborer des 
techniques à convergence plus rapide et combine-t-on souvent les 
méthodes du gradient avec d’autres plus puissantes, et cela au départ 
même, quand le point x, est loin du minimum et on arrive, en suivant 
l'opposé du gradient, à faire décroître sensiblement la fonction. Et 
tout de même nous tenons à souligner une fois de plus les avantages 
incontestables des procédés utilisant le gradient — leur simplicité 
et la possibilité d'utiliser des fonctions de nature fort diverse. 


$ 2. Méthode de Newton à pas variable 


1. Construction de la méthode. Les méthodes du gradient détermi- 
nent la direction de déplacement moyennant le seul terme linéaire 
du développement taylorien de la fonction, i.e. l’approximation la 
plus grossière de celle-ci. 

Soit à minimiser une fonction f (x) strictement convexe et suffi- 
samment régulière. 

Considérons la fonction 


(a) = 1 (0) + (fu), ay) +5 (v) (y), z—v), 


approximation quadratique de jf (x) au voisinage d'un point y. Vu 
la stricte convexité de f (x), ÿ (x) est, on s’en convainc sans peine, 
strictement convexe elle aussi et atteint donc son minimum en un 


seul point, le vecteur p = y — y minimisant + (x) étant défini par 
la formule p — —(f" (y))"* j” (y). La direction p est une direction de 
descente de f (x) parce que (f” (y), p) = —(f" (y) p, p) << 0 en vertu 
de la convexité de f (x). Dans un voisinage restreint de y la fonction 
quadratique Ÿ (x) approxime la fonction à minimiser beaucoup plus 
exactement que ne le fait une fonction linéaire. On s'attend donc 
naturellement (du moins si le point y se trouve dans un voisinage 
suffisamment restreint de la solution x,) à ce que le déplacement à 
partir de y dans la direction p = —(f" (y))-! j’ (y) permette de réali- 
ser une décroissance plus importante de la fonction et d'obtenir une 
meilleure approximation de la solution que le déplacement dans la 
direction —f" (y) utilisée dans la méthode du gradient. Ces raisonne- 
ments autorisent à parler d'une plus grande efficacité du processus 


itératif générant les approximations successives de la solution du 
problème de minimisation de f (x): 


Tnt = Th — LR (A) fr, a, > 0, k=—0, 1, .. (2.1) 


devant la méthode de la plus grande pente, i.e. avec l'algorithme 
(2.1) la convergence 7, —+ z,, f (x:) — f (x,) sera plus apide que 
celle de la méthode du gradient. 


| La méthode (2.1) sera appelée méthode de Newton à pas variable ou 
méthode de Newton généralisée. 
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La méthode de Newton classique correspond au cas a» = fi. 

A condition de noter @;; (zx), à, j = 1, 2,...,n, i étant l’indice 
de la ligne, les éléments de la matrice (f;)-}, la méthode (2.1) s'écrit 
en coordonnées 


{ of (z ; 
ES ER i—1,. 


L2 e n e 
O2) . 


ji 


Cette méthode peut également se mettre sous forme 


fkPr = —În Tnti = Th + GuPr 


ou, en coordonnées, 
7 
> f(zr) 5 _ __ 9/(x) 


ôzi Ori ‘À Ozi 


1 i î ; 
Th+1—=Th + Apr, i=1,...,n 


Pour définir le vecteur p, on peut donc, au lieu d'’inverser la matrice 
f” (xx), résoudre un système d'équations linéaires. 

Nous allons étudier deux variantes de la méthode de Newton à 
pas variable, où le paramètre & est choisi de façon différente. Décri- 
vons le premier procédé de choix. 

1) Posons « = 1 et trouvons le point x = x, + apx. 

2) Calculons f (x) = f (x, + ap). 

3) Vérifions l'inégalité 


f(x) — fm) Lealfi, pa), 0<E<+. (2.2) 


4) Si (2.2) a lieu, on prend «& = 1 pour valeur cherchée : &n =" 1. 
Dans le cas contraire, on partage à jusqu'à ce qu'on ait l'inégalité 
en question. 

Nous appellerons choix de «4, à partir de la condition (2.2) le choix 
décrit de la valeur du paramètre «,. 11 s’agit en l’occurrence d'un pro- 
cédé analogue à celui de la méthode de la plus grande pente lié à 
la vérification de l'inégalité (1.2). 

Dans la deuxième version de (2.1) la valeur de «, doit fournir le 
minimum de la fonction dans la direction de déplacement 


TG an (NT) = min f(x — a (I). (2.3) 


2. Théorèmes sur les propriétés de la méthode. Il résulte de la 
formule (2.1) que la méthode de Newton n'est valable que pour des 
fonctions dont la matrice des dérivées secondes possède une inverse, 
la matrice (f;)-! devant être: bornée (cette dernière propriété sera 
mise en évidence par la suite). Ces exigences sont remplies par les 
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fonctions deux fois continâment dérivables fortement convexes. Tout 
le long du paragraphe nous supposerons donc que f (x) vérifie les 
conditions 


myF<(C(@y y <MIyIF m >%>0, (2.4) 


quels que soient x, y € E". Rappelons que ces fonctions possèdent 
un minorant et un seul point de minimum x,. 

THLOREME 2.1. Si l'on minimise une fonction f (x) vérifiant les 
conditions (2.4) par la méthode (2.1) où le paramètre a, est choisi à 
partir de la condition (2.2), alors, quel que soit le choix du point initial 
Zo, La convergence de la suite {x,} vers le point de minimum est super- 
linéaire : 

Tn+i— Ze M KCAN Anar (2.9) 
IciN,C<oæ,À;+, << 1 pour tout l > 0, À; —+ 0 quand i —+ 00. 


D£MONSTRATION. La méthode (2.1) peut s’interpréter comme le 
processus du type gradient (1.20) si on estime que F;! — (f;)"!. La 
matrice jf, jouissant des propriétés nécessaires, la convergence de 
(2.1) vers la solution découle des résultats généraux de convergence 
des méthodes du gradient (théorème 1.6). 

Etablissons l'estimation (2.5) et commençons par remarquer que 


(fes Pr) = —(fipr, Pa) < —mM || pr PF. (2.6) 


Du moment que (fx, px) << 0 et (fx, px) — 0 (théorème 1.6), (2.6) 
entraîne que {|| px || —>- O0 pour  — oc. Montrons qu'à partir d’une 
certaine itération on a &@, = 4 dans la méthode (2.1). Utilisons le 
développement de Taylor et l'expression (2.6), il vient 


fes fa = ou (fè, pa) + (fe pas Pa) + SE ((fie— fà) Pas Pa) 


= 2 
<a (fr: ps) (15 PEER) 
Ici ze = zx + 0 (zr41 — 22), 0 € [0, 1]. Puisque || x; — x, || — 0, 
on a, pour À tendant vers l'infini, 
Î fre — RU fre — fe + NS — fx 1 0, 
en vertu de la continuité de la fonction (opératorielle) f” (x). [1 
existe donc pour toute constante 0 <e<- un nombre W, (e) 
tel que, lorsque k > N,(e), la condition : 


ŒRh Œk Il fre —Îr I 
NÉ OU EEE 
est vérifiée pour ax = 1. Cela signifie qu'il en est également de 
l'inégalité (2.2). Ainsi, sous.les hypothèses du théorème, le choix. 
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utilisé du pas garantit qu’à partir d’une certaine itération la méthode 
(2.1) se réalise avec le pas unité, i.e. elle devient la méthode de 
Newton usuelle. On peut maintenant évaluer la vitesse de conver- 
gence de (2.1): 


(Tu+1 — Tes Tati — Le) = (Tr — Lx — (Fr) fRs Thti — Te)- 


En vertu de la formule de Lagrange pour les opérateurs 


(CR) fs Thai — 2e) = (PR) (fr — fe), Tam — 2e) = 


— ((R)"{ fhe (Tr — z,), Th+1 — Ze) 


Ici Zrc= 27; + 0(2:—7,), 0€ (0, 1]. Par conséquent, 


Tri — 2e = (7 — (PE)! fre) (Zn — Le) Th+s — Le) = 
Le (x j” (fe — fre) (zx — La) Th+1 — 24) 


1 
<— [fr — fre || Ta — ze Il Î| Tri — Ze Il, 


ou 
Î Tata — Ze SAR [Tr — Ze ||, (2.7) 


où Àx — 2 Il fx — fre Il. Puisque || f: — fre || — 0, on peut indiquer 


un nombre N tel que, pou k= N +l,l1=0,1,...,onait Ant: < 
<Aet Ày+, — 0 quand ! + co. En posant |[|zn — x, || = Cet en 
tenant compte des remarques faites, on a l'estimation (2.5). Le 
théorème est démontré. 

Supposons que la matrice f” (x) satisfait, en plus de (2.4), à la 
condition de Lipschitz 


IF) —fYI<RIz—-yIL x, yEeE". (2.8) 
Dans ce cas, dans l'estimation (2.7) 
Â ï R 
M = fe — fre I Ta — 2, |] 
et donc 
R 
te 2e IST — 2e I (2.9) 


On a donc le 


THeorëME 2.2. Si la fonction f(x) est telle ju'on ait (2.4) et 
(2.8), quel que soit Le point initial x,, la convergence de la suite (2.1), 
où les valeurs de a, sont choisies à partir de la condition (2.2), vers la 
solution est quadratique, i.e. on a l'estimation (2.9). 
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L'’estimation (2.9) peut se mettre sous une autre forme. Notons 
Ur = ni I Tr — Z4 |. Îlexiste un nombre L tel que pour 4 = L + I, 
[= 0,1,...,0on ait uzr+, << 1. De plus 
R R 2 R 
lens (Else) <<. <(LSla-z ll) 


On écrit en définitive 


2 
e 


m 21 
trait, KT UE. 


Voyons la variante de (2.1) avec choix du pas à partir de la 
condition (2.3). La convergence de la suite {z,} vers la solution dé- 
coule dans ce cas des résultats généraux sur la convergence des mé- 
thodes du gradient (théorème 1.7). Comme dans la version avec «; 
choisi par (2.2),la convergence est superlinéaire si ona (2.4) et qua- 


dratique si on a de plus la condition (2.8). On le démontre de la 
façon suivante. 

Soit zys = 2x — (fr) là et Zn = Zn — an (fk) 2 fr, avec ax 
choisi moyennant la condition (2.3). Utilisons les estimations (1.11), 
il vient 


— M en 
rat ES fat — a fre) — LS Tr 2 |. 


En vertu de (2.7), || us — ze [| & An lzx — 24 I, Àx 0 pour 
k — oo. Si les conditions (2.4) sont remplies, on a donc 
M \1/2 
nus (Se) hla-sl=vlia-z il (210) 


m 


OÙ Vr — (Ÿ )" Àx > O0 pour À —+ oo. Si (2.8) est valable, alors 


R 
M LS lzr — ze || et 
M \1/2'R . 
ETC AIES ES RS EE AE 1(2.11) 
3. Versions de la méthode de Newton généralisée. Prenons d’abord 
l'algorithme où les approximations successives sont construites par 
la formule 


Zh+a = Tr — Qn (fo) fn, Gn > 0. (2.12) 


Dans cette méthode p; — —(f)"* fx, i.e. on construit les directions 
de descente à l'aide de la même matrice (f,)-!. La méthode (2.12) 
est un cas particulier de l’algorithme (1.20) (F5! — (f)-1), et on 
affirme donc que, quel que soit le point initial z,, la suite (2.12) 
converge vers la solution en progression géométrique, le pas pou- 
vant être choisi à partir de (2.2) ou de (2.3) (théorèmes 1.6 et 1.7). 
Mais le choix de l’approximation initiale x, influe essentiellement 
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sur la grandeur de la raison g de la progression, i.e. la vitesse de 
convergence réelle. En effet, vu que (fx, px) — —(fx, fofx) pour la 
méthode (2.12), on obtient moyennant la formule de Taylor l’esti- 
mation (comme dans le théorème 2.1): 


FA mi 


, I fée — fo I 
fun Son (frs pa) (1— SE), (2.13) 


Ici tre = Zn + 0 (zx41 — 28), d E [O, 1]. Six, — x,, on a, en vertu 
de la continuité de la matrice des dérivées secondes, 


max ||f" (x) — f" (x) || + 0 
xES 


{S = {z: f(x) < f (xzo)}). Plus le point initial x, est proche de z, 
et plus la valeur «, vérifiant (2.2) doit donc être grande, i.e. plus 
le pas avec lequel on effectue le processus (2.12) s'avère important 
si la longueur du pas est choisie à partir de la condition (2.2). En 


particulier. il existe pour toute constante 0 << £< 5 une constante 


p (e) telle que si l’approximation initiale x, est prise dans une sphère 
S de rayon p, alors 


4 4 ses (z)— fo Il _ 

2 2 m he 
Cela signifie par suite de (2.13) qu’en choisissant une approximation 
initiale suffisamment voisine du point x,, l'inégalité (2.2) est juste 
pour «x, = 1. i.e. le processus (2.12) converge avec le pas unité. 
De même que pour le théorème 2.1 on obtient l'estimation 


rt — Ze I CDN — re UN Ze — zx M 9 ta — cell. 
(2.14) 


Ici gq = À max [fs — f” (x) Il. I en résulte justement que la 
x£S 


grandeur de q dépend du choix du point initial x,, g diminuant avec 
l'écart entre zx, et z7,. 

Dans la variante de (2.12) avec le pas choisi à partir de la con- 
dition de minimum dans la direction de déplacement, on établit, 


compte tenu de (2.14) et à force de raisonner comme pour les esti- 
mations (2.10) et (2.11), que 


M \1/2 _ 
zur (+) qgitzi—zl=qgliz-xz, |, 


. M \1/2 14 ; ; 
où qg— (=) — ax | fo— fre|l + 0 Sl To Te. 


Et voici une autre méthode de Newton modifiée. 
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Soitk = Et+i,E =0,1,...,i—0,1,...,t—1,t>1étant 
un entier quelconque. On construit alors le processus itératif 


Lrttita = Latti — Qet+: (Ja) Jitsis Cr > 0, 
ou, avec les notations initiales, 
Th+1 = Th — Ah (fat) fr, an > 0. (2.15) 


Il s'agit d’un algorithme intermédiaire entre (2.1), où on construit 
à chaque fois le vecteur p, moyennant une nouvelle matrice (f:)"{, 
et (2.12) qui détermine la direction de déplacement par une même 
(f)7!. Dans la méthode (2.15), la matrice est renouvelée tous les £ 
pas. Comme (2.1) et (2.12), l'algorithme (2.15) s’interprète comme 
variante de la méthode du gradient (1.20), et pour divers choix du 
pas sa convergence résulte des théorèmes 1.6 et 1.7. 

Voyons quelle est la convergence de la méthode (2.15) avec le 
pas choisi à partir de la condition (2.2) en supposant que la fonction 
Î(x) vérifie (2.4) et (2.8). 

Appliquant la formule de Taylor on obtient 


, Î fRe— /E2 || 
fu+t — fr L'En (fn, pa) (1 ++ = Et ]- 


La convergence du fait que || zic — Zu || = || z qtire — 
— Zu] re — Tan | + + | Tet+: — T'et+i+1 I] 0 pour 
k —+ oo. Par suite, || fre — fret | - — 0. Vu cette circonstance on mon- 
tre par lesmêmes raisonnements que pour le théorème 2.1 qu’à partir 
d'une certaine itération la méthode (2.15) se réalise avec le pas unité : 
ar — À. En vertu du théorème 2. … on a alors l’estimation 


EPA PS EEE AE (2.16) 
quels que soient £ > ZL, L un entier positif. Comme dans le théorème 
2.1 il vient ensuite el’ estimation 

Teese — 2e = | Lécts — (fer)! fre — 2, 
|| (Fe) IT fee — Ée+ 12e I A Zeets — 2 1. 


Ici Tartine == Tet+s + O (Te — Ter+1), OE[O, 1]. Conformément à (2.8), 
Îl fée — tte || | fee — Pl + NÉ — frtue MR (I Zee 2e + 


+ || Zerx — 2, ||). Compte tenu de (2.16) on trouve 


ÎlTge+s — 2, || <+ (gg 2e I + Géess — Ze NN Zetta — 2 


SE llz—s Il° (1+Y Il gt — 2e ll), 


i.e. 
Terre — Ty | Ce tee — Ze (P, Co < 00. 
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Supposons que pour un 2<<j<t— 1 on a l'estimation 


IT ges — Ze Î < Ci; Let — Te || Fa, Cj < oo. 
Alors 


Teese — 2 = Tes — (an) feras — 2 I 
|| (Fee) IN Fe — gra ie |] Tres — Ze 


R 
<< (rer — 2, | Zee — 2 1 I Zee — zu 
A R . 
<Cynllzu-z Cu CG (1+C ze 2, |})- 


La vitesse de convergence de la méthode (2.15) s'évalue donc par 
Lure — Ze H LC Te — 2 Il Fe (2.17) 


Cette estimation signifie que la convergence de la suite {x.:,} vers 
la solution est d'ordre t + fi. 

&. Discussion des propriétés de la méthode de Newton. Nous 
avons établi que la méthode de Newton à pas variable converge vers 
la solution indépendamment du choix du point initial z, et que cette 
convergence est superlinéaire ou quadratique selon les contraintes 
satisfaites par la fonction f (x). 

Le fait de converger à partir de n'importe quelle approximation 
initiale constitue un avantage sérieux de la méthode (2.1) sur la 
méthode de Newton classique où la convergence n'est garantie qu’en 
présence d'une approximation initiale suffisamment bonne (i.e. 
suffisamment voisine de la solution du problème). Par ailleurs, la 
vérification des conditions sous lesquelles une approximation initiale 
donnée garantit la convergence s'avère fort difficile dans la méthode 
classique de Newton parce qu'elle exige qu'on sache de la fonction 
des choses qu'on ignore en général (par exemple, la valeur des cons- 
tantes m, M). 

La comparaison de deux procédés d'ajustement du pas où on teste 
respectivement (2.2) et (2.3) montre que la première technique coûte 
moins sur le plan du calcul de la fonction (en particulier, à partir 
d’une certaine itération elle exige que celle-ci ne soit calculée qu'une 
seule fois, vu que «a, — 1) et garantit une convergence au moins 
aussi rapide que la deuxième. 

S'agissant de la minimisation de fonctions convexes, la méthode 
de Newton assure une convergence des approximations successives 
vers la solution infiniment plus rapide que les méthodes du gradient. 
Si l’on entend donc par efficacité d'une méthode sa vitesse de con- 
vergence, la méthode de Newton est, comme nous l’avons supposé 
au début du paragraphe, beaucoup plus efficace que celles du gra- 
dient. Or, il serait plus exact d'apprécier l'efficacité d’un algorithme 
selon le volume de calcul qu'il exige pour résoudre tel problème 
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avec une précision désirée. L'efficacité d’une méthode se mesure donc 
au nombre d'’itérations nécessaires pour arriver à la solution et au 
nombre d'opérations arithmétiques par itération. 

Dans la méthode de Newton ce dernier nombre est en général 
beaucoup plus élevé que dans les techniques utilisant le gradient. 
La cause en est la nécessité de calculer et d'inverser la matrice des 
dérivées secondes. Par contre, un problème est résolu par cette 
méthode (avec une précision assez bonne) en un nombre d'itérations 
des dizaines et des centaines de fois moindre que par les méthodes 
du gradient, d'où son efficacité sensiblement plus grande. Pour 
certains problèmes son coût par itération peut néanmoins s'avérer 
catastrophique, et la cause en est toujours le calcul de la matrice des 
dérivées secondes f” (x) (en général, la difficulté majeure de problè- 
mes d'extrémum est justement le calcul de f” (x) et non pas son in- 
version). Plus bas nous aborderons de tels problèmes. Dans ce cas 
on peut utiliser les versions examinées de la méthode de Newton dont 
l'une se contente d’un seul calcul et d’une seule inversion de f” (x) 
et l’autre ne l'exige qu’au bout d’un nombre fini d’itérations. Ceci 
étant, pour une approximation initiale, assez bonne, on a une con- 
vergence rapide. Mais on ne tranche pas la question du coût (qui peut 
en général croître) par le recours à ces versions. On veut donc cons- 
truire des méthodes de minimisation qui convergent à peu près 
comme la méthode de Newton tout en demandant à chaque itération 
un volume de calcul sensiblement moindre. On dispose de plusieurs 
méthodes pareilles construites par le jeu de considérations différentes. 
Elles s'avèrent en général plus puissantes que la méthode de Newton 
et leur vogue ne cesse donc de grandir. L'étude de tels algorithmes 
fait l'objet des paragraphes suivants de ce chapitre. 


S 3. Méthodes des directions duales 


1. Sur le choix du schéma des méthodes. Nous avons noté dans 
le paragraphe précédent la difficulté majeure de la méthode de 
Newton qu'est le calcul de la matrice des dérivées secondes de la 
fonction à minimiser. Pour être plus efficace, un algorithme doit 
donc se passer de cette opération tout en conservant la vitesse de 
convergence de la méthode de Newton. 

Une question se pose: ne vaudrait-il pas mieux générer les approxi- 
mations successives de la solution en construisant des directions 
pr voisines de celles de la méthode de Newton à l’aide de la seule 
dérivée première de la fonction à minimiser? 

Les dérivées premières et secondes de f (x) sont liées par la formule 
de Taylor pour les opérateurs (c'est justement le cas du gradient 


f" (2)): 
fYy—f (a) =f(Yy—-x +o(zx, y — 72), (3.1) 
où [ow(z, y—zx) | = 0 (y — z ||). 
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L'égalité (3.1) fait penser que si on calcule les dérivées f” (r} 
en des points z, . .., Zn+, arbitraires mais voisins et si on définit 
une matrice carrée À n X n moyennant le système d'équations (vec- 
torielles) 


Î' (Zi+1) nr jf’ (zi) — À (Zi+1 ue Ti), L — 1, TEL (3.2) 


(en supposant certes les vecteurs x;4, — x;, i — 1, ..., n, linéaire- 
ment indépendants), À sera proche de la matrice des dérivées secon- 
des calculée en un point x, quelconque. 

En effet, on a pour tout i, en vertu de (3.1), 


(titan) — Ÿ (mi) = PT (ei) (mit — 15) + © (ti, Tia — ti) 
et donc, compte tenu de (3.2), 
À (rit — Zi) = fai) (Gris — Ti) + © (ti, Zita — Ti), 
RS CE 
Ce système d'équations se récrit comme 


À (ri4a — Zi) = 5 (tie — Zi) + (fi — F5) (tit — ti) + 
+ OT, Tir — Zi), i=1,...,n, 1<j<n. (3.3) 


Si la matrice /” (x) est régulière et continue, étant donné la proximité 
des points x;, la somme de deux derniers termes du second membre de 
chaque équation du système (3.3) doit être sensiblement inférieure 
au premier terme, i.e. 


À (titi — 2) & f(x) (in — mu), i=1,...,n, 


ce qui atteste en général la proximité des matrices À et f5, j = 1.... 
..., n. On conçoit sans peine comment construire, les considérations 
ci-dessus aidant, les processus itératifs de minimisation. Si {x,} est 
une suite formée de façon quelconque qui converge vers le point de 
minimum de / (x), dans un voisinage suffisamment petit de ce mini- 
mum les points x}, Æp-1, . . ., Tn_-n Sont proches les uns des autres. 
En définissant la matrice À, par le système d'équations 


Ah (Tri — Tps) = P(tr-i) — f' (anis), =0, 1, ..., n—1, 
on peut construire la (4 + 1)-ième approximation par la formule 
Ly+s = TR — arAh'fn, Œh > (. (3.4) 


Si À, s'avère suffisamment proche de f;, pr — —Ax%'f} est alors 
voisine de —(/;)"! f, (direction de déplacement de la méthode de 
Newton) et c'est donc une direction de descente. En définissant de 
façon analogue les matrices A4,3,, Ayye, . .., leur proximité des 
matrices fx+1, fai, . . . fait que le processus (3.4) doit posséder des 
propriétés proches de celles de la méthode de Newton. D'autre part, 
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on n’a pas besoin dans ce processus de calculer les dérivées secondes 
de la fonction. 

Ces considérations nous autorisent donc à dire qu'il est possible 
de construire toute une classe de processus de descente dont la con- 
vergence est superlinéaire et qui se passent du calcul des dérivées 
secondes de la fonction. Nous avons appelé ces processus méthodes 
des directions duales pour des raisons qui seront expliquées lorsque 
nous examinerons les procédés de calcul de la matrice A;' et du 
vecteur px. 

Occupons-nous maintenant à justifier rigoureusement les métho- 
des du type (3.4). 

2. Justification des méthodes. Supposons que f(z:) admet des 
dérivées premières et secondes continues. Soit {r,} une suite infinie 
à qui nous faisons correspondre une suite {y,} définie par la formule 


Un —= Th + Th (3.5) 
avec r, des vecteurs vérifiant les conditions suivantes: 
1) si À, est un déterminant de colonnes constituées par les 


r rh . 
vecteurs —#—, .,,, —#4=nti_ , alors, quel que soit k>n—1, on 
I rr IL I rr-net il — . 
a |A,|2e€, e étant un nombre positif petit ; 
2) ||rx || — O0 pour £ — oo. Ce sont les seules contraintes sur le 
choix des vecteurs r;. 


La première exigence ci-dessus est en fait la condition d’indé- 
pendance linéaire des r;. 


LEMME 3.1. Etant donné une suite bornée {x,}, || ti+1 — zx || — 0 


pour k — oo, et une matrice A; définie, pour tout k > n — 1, par le 
système d'équations 


A pri = Chpt) L — 0, 1: ss 1 — (3.6) 


Où en; = Ÿ (Yn-i) — f (Æn-i), lus Yr Sont les éléments de la suite 


(3.5), on a | 
de Il 4x — f (mx) 1 = 0. 
DEMONSTRATION. Utilisons la formule (1.5.1) et représentons 
l'opérateur f’ (x) par sa dérivée: 
{ 
d'un) — (ane) = À Fes +5 (ges — zu )) rs de = 
0 


.i 1 
— | Ÿ (tri) Tai AT + | LP (au + run) — À" (ni) ras dt = 
0 ) 


1 
= f (Tri) rai + | LP Gras + ras) — fl (an-i)i re dr. 
0 
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Compte tenu de ces égalités, 


(An — f” (zn)) ras = (ans) — F7 (ax)) rai + 
1 
+ | LP" (tas + Trans) — F7 (Gn1)) ras AT. 
Û 


Notons À; —f; = B,, il vient 
| Burns AR FR: — fr ras 1 + 
+ ne [Crus + ra) —f CNIL Il- (3.7) 


La suite {xz,} étant bornée, on a pour tout kz, EQ,(Q € E"estun 
ensemble borné fermé). La fonction f” (x) est uniformément continue 
sur Q@, donc [fi —fall = A0 et sup [||f" (zx: + 


0<St<1 
+ rai) — 7 (ani) | = ha 0 pour k —+ 00. 
Ainsi, il découle de (3.7) 


Brera: << Gi + Dans) ra: M = he res Îl (3.8) 


où h,-, > 0 quand À —+ oo. 
On a par définition de la norme d'un opérateur: || B, || = 


— max || B;z|l. 
lzll=1 
Soit :4 l'élément réalisant le maximum. Si 


= Ôp —— TT r'k un +. se 0 


M rR-n+1 || 


en vertu de la condition PES les coefficients 6, sont 
bornés : |ô,- |[&C, i—0, 1, ..., n—1. Moyennant la représentation 
du vecteur 2, on open 


I Ba 1] = 1 Bac | =] : ÔnBr Tr me — _;j a I<S a | Ou-Bh TT IE e Trail | 


D'où, compte tenu de “ 8) et de la ie h | Ôx-s |, 


ni 


hp £ 
8: 1< Ÿ [6 | El D ns | Ans —> 0 
i=0 


pour Æ — oc. Le lemme est démontré. 
Le lemme ouvre en fait la voie pour la construction des méthodes 
du type (3.4). 


LEMME 3.2. Si f(x) est une fonction fortement convexe cuntinüment 
dérivable et la suite {x,} est telle LS fu fn et (fn: Tnt — Tr) 0 
pour k— 00, alors || ïi+1 — zx || > 0. 
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DÉMONSTRATION. Par suite de la condition f,::<f1, on a, quel 
que soit À, 21 EC Sn, Sx—{x: f(x} <f(x.)}. L'ensemble S, est 
fortement convexe vu la convexité forte de f(x) (lemme 1.2.8). Il 


existe donc un nombre positif À=>0 tel que tout point Zu te 


? 
où [[EÏ SA ||Tari—21l, soit intérieur à S,. Soit AS = vu + 0, 


où vET,, Ty étant un plan tangent à S, en z,, et wLT,. Du 
moment que f’(2:) L T,, on obtient dans ce cas 


IG, a—t)l=|(f, v+o)|=| fille. 


Mais || wo || > ]| & ||, sinon l’ensemble S, et le plan T, posséderaient 
en commun des points en plus de z,, ce qui contredit la convexité 
stricte de S,. Aussi 


Lg IL 2 
PA LCLE pe) | ZA || fa] | Zee — 23 If. 


Si || fr || 0, il en résulte || z,4, — zx [|—- 0. Si, par contre, ||, || 
tend vers zéro, la forte convexité de f (x) entraîne d; —> 0, d, étant 
le diamètre maximal de S,, et donc || z;+, — zx || > 0. Le lemme 
est démontré. 

Examinons maintenant de près les propriétés du processus (3.4). 
Nous l’étudierons en supposant la valeur du paramètre «,; choisie à 
partir de la condition (2.2) ($ 2) et en nous rappelant que dans ce cas 
Pr = —Aïfs. La fonction à minimiser est supposée régulière forte- 
ment convexe. Le choix de «, est justifié d’après le même schéma 
qu'aux paragraphes précédents. Le développement taylorien nous 
donne l'estimation 


APR; 2 
fnts — fn An (frs Pa) [1 do. RSR (Ann, Pa) 4 non char I pa 1? 


(fR> PR) C2 (y Pal’ 
OÙ Ah —={||fre— An], Tre = Tr +0 (Zx+1— 2x), 0€ 1[0, 1]. Notons que 
(fs Pr) = —(AnPns Pr) = — (fn, Ar'fn). (3.9) 
Vu (3.9), 
fnts — fn En (fhs Pn) [4 SU , 


qui implique que la condition (2.2) est manifestement remplie 
si &, vérifie 
- Ghan || Pr ||? 
D NE NE U,, me € (3.10) 


TH£eoREME 3.1. Si f (x) est une fonction deux fois continûment 
dérivable vérifiant les conditions (2.4), la matrice A, se définit pour 
5—01608 
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tout k > n — 1 par le système (3.6) et satisfait à 
(As, fx) > 0 (3.11) 
et a, est défini par la condition (2.2), alors, quel que soit le point initial 
Zo, La suite (3.4) est telle que fi4, fr et [|zx — x, [| — 0, et la 
convergence est superlinéaire : 
Tate — Ze MK CAN... Axe (3.12) 
Ici C, NL oo, Àky+1, 1 pour tout 1 > 0, À; — 0 lorsque i + 00. 


DEMONSTRATION. On ne saurait utiliser le lemme 3.1 qu'après 
avoir montré que sous les hypothèses du théorème la suite (3.4) 
vérifie || Ze+y — Zn || — 0. 

En vertu des conditions (3.9) et (3.11), on a (fx, px) << 0 pour k 
quelconque. Il en découle, primo, qu'il existe toujours une valeur 
ax = 0 pour laquelle on a l'inégalité (3.10) (et donc (2.2)) et, se- 
cundo, que f1+1 << f, par suite de (2.2). Cela signifie que x,+, € S — 

= {x: f(x) Lf(xo)} pour tout k et que, f(x) étant minorée, 
d. — fr+, — 0. Par suite, il résulte de (2.2) 


nu (fhs Pr) = (hs Tn+1 — Tr) — 0. (3.13) 


Puisque frs & fr et (3.13) a lieu, la suite {x,} satisfait aux exigen- 
ces du lemme 3.2. Par conséquent, pour k —- oo, 


Î Ta+1 — Zr || — 0. (3.14) 


Ainsi, les conditions du théorème garantissent toutes les exigences 
du lemme 3.1, et donc, pour À — co, 


Ar — fx | — 0. (3.15} 


Compte tenu de (2.4), il s'ensuit que, quels que soient AJ, et m, 
tels que M, = Met0<m,<m, Se trouve un nombre Z tel que, 
quand # > L, on ait pour tout y € E” (1} 


ma y IF (Aay, y) < M, ll y IF. (3.16) 


En vertu de (3.9) et (3.16), à partir d'un certain k on a (f£, pr) < 
< —m || pr |P. L'inégalité (3.10) a donc manifestement lieu si l’on a 


RL PR De, 0<e<—. (3.17) 


Vu que a << M + M, << ©, on se convainc facilement qu'il existe 
une constante & >> 0 telle que, quel que soit k, l’inégalité (3.17) soit. 
satisfaite pour a, >. Par suite, (3.14) entraîne || p4 || — 


1 se 
= a Mt — all 0. D'où 


fa = 1 Axpa Î << Mi pa | 0. 
Conformément à (1.12). cette dernière condition équivaut à zx —+ r,- 
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Etablissons l’estimation (3.12). 

Etant donné que || p4 || —- 0, qu'on a (3.15) et que les dérivées 
secondes de f(x) sont uniformément continues sur S, on a pour 
k — oo 


an |" (Zn + 0 (Zu+a — Zn)) — 7 (zx) I + NF" (zx) — Az I — 0, 


qui implique que, quel que soit 0 < € << 1/2, l'inégalité (3.17) est 
valable pour a; — 1 à partir d’une certaine itération. Le processus 
(3.4) se réalise donc avec le pas unité. 


La première estimation (3.16) signifie qu'on a || Az! || < a: pour 


k > L (lemme 1.2.9). Jointe à l’invertibilité de À, cette estimation 
permet de conclure pour tout k = nr — 1 qu'il existe une constante 
M, telle que || Az! [| < M, pour k > n — 1. Fort de ce résultat on 
peut évaluer la vitesse de convergence comme pour le théorème 2.1 : 


rt — Ze SIT — Arte Tr — ze KI AR X 
X [Ar — fre I Nr — Ze M < Ma Au — fre IN Nrx — 24 11, 


OÙ || Za+1 — Ze | An [Tr — Ze Îl, où À = Me |] 4x — fre Il. Puis- 
que || Ax — fre & 1 4x — fà I + If — f' (œx + (ax — 2.) + 
— 0, on trouve un nombre V tel qu’on ait À ,,, << 1 pour k — 
= N+I,l—=0,1,...,et À, — 0 avec Z tendant vers l'infini. 

En posant || zx — x, || — C et en profitant de ce que nous avons 
dit sur les valeurs À,, nous arrivons à l'estimation (3.12), c.q.f.d. 

La condition (3.11) du théorème signifie, en vertu de (3.9), que 
p. est une direction de descente de f (x). Il se peut que (4;'f5, fs) < 0 
à certaines itérations. On modifie alors le vecteur r, et on reconstruit 
la matrice 4;! (de façon à remplir la condition (3.11)) ou on fait un 
pas dans la direction de l'opposé du gradient. Les pas seront toujours 
en nombre fini parce qu'en suivant cette direction on a || z,+,—zxx || —- 
— Oet || A, — fx || — 0 (si le vecteur r, vérifie les conditions for- 
mulées plus haut). En vertu de (3.16) et (3.9) on a donc nécessaire- 
ment, à partir d'une certaine itération, (A;'fx, fx) >0. Il serait 
d'ailleurs plus simple (si (A%'f», fx) — —(px, fr») << 0 pour un #) 
de faire changer de signe le facteur scalaire &, : on se déplacera alors 
à partir de x, dans la direction —p;, i.e. dans une direction de des- 
cente. 


3. Construction de divers algorithmes. Les conditions auxquelles 
sont assujettis r, Servant à générer la suite (3.5) ne sont pas sévères 
et elles laissent un grand arbitraire sur le choix de ces vecteurs. Cela 
permet de construire des algorithmes du type (3.4) puisque les diffé- 
rentes suites {r,} définissent (selon (3.6)) autant de suites de matri- 
ces Ape 


5% 
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Voyons certains procédés de formation des r;,;. On peut prendre 
pour ceux-ci des vecteurs dirigés suivant les axes de coordonnées. 
Si, par exemple, r, = À, alors, pour À — fn + i, t entier et 
i=0,1,...,n—1,onar,; = Av;4. Ici v,4, est le vecteur unité 
de l’axe correspondant et À,, un facteur numérique qui doit remplir 
la condition : Es 0 pour k —+ oc. Ce choix des r; garantit la con- 
dition | A4 | > e. Dans ce cas la définition de la matrice À, demande 
à chaque itération le calcul des dérivées en deux points x, et UR. 
La loi de décroissance de À4 peut être quelconque, mais la pratique 
montre que la convergence la plus rapide a lieu pour sa décroissance 
monotone ; on peut poser par exemple À, —= 1/k2. 

Un autre procédé de définition des r, consiste à utiliser, pour 
k > nr — 1, non pas (3.5) mais la suite (3.4), i.e. on pose rx, = 
= Lpti — Th = —QnAi'fr. 

En effet, la démonstration du théorème 3.1 montre qu'avec A4 
une matrice arbitraire vérifiant la seule condition (3.11) et «, choisi 
à partir de la condition (2.2), on a || z,+, — zx || — O0 pour k£ — oo. 
En générant les vecteurs r, moyennant la suite (3.4) on a donc forcé- 
ment la condition || r, || —- 0 et il ne reste qu'à tester la condition 
|] A: | > e. Si elle n’a pas lieu pour un #, on a à choisir un autre r4 
(cette fois-ci non pas d'après (3.4)). Dans un tel algorithme, pour 
définir la matrice À, à chaque itération (où la suite (3.4) garantit les 
conditions imposées aux vecteurs r;), il faut calculer le gradient au 
seul point z4. 

Les deux procédés décrits ne sont certes pas uniques. 

Le système d'équations (3.6) donnant À, n'utilise pour tout X 
qu'un seul nouveau r,; et e, correspondant, les autres r,_1, ... 
ee.) lhonty OÙ h-1s + + + Eh-n+1 étant formés aux itérations précé- 
dentes. On modifie le système (3.6) de façon qu’à chaque itération 
du processus (3.4) il apparaît dans (3.6) un nombre arbitraire de 
VECT@UTS pis + + + This 1<j<n, (et de vecteurs e,_;,, ... 

1 Chi; correspondants) nouveaux, les nr — j autres vecteurs 
Th-ijgys + + Tai, étant construits dès itérations précédentes. On 


met alors le système (3.6) sous une forme plus commode 
Arri=es i=A1,:::0 (3.18) 


Si les exigences du lemme 3.1 sont maintenues et si on reprend exac- 
tement sa démonstration, on s'assure que la matrice À, définie par 
le système (3.18) vérifie aussi la condition || A, — fx [| —- 0 pour 
k —+ 00. 

En appliquant dans (3.18) divers procédés de construction des r,; 
on aboutit à des algorithmes de minimisation classiques. Ainsi, en 
posant r, — v,, (auquel cas y; = zx + vu), où vx: est un vecteur 
dirigé suivant le i-ième axe de coordonnées et tel que || 0; || —> 0 
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pour À —+ oo, le système (3.18) se récrit 
Avr = Ÿ (ar + Vus) — f (ar), i=1,...,n. 


La matrice À, ainsi définie est l’analogue aux différences de la ma- 
trice des dérivées secondes f” (x.) et le processus (3.4) devient donc 
l'analogue aux différences de la méthode de Newton à pas variable. 
En se rappelant le théorème 3.1 on dit que cet analogue converge à 
partir d'une approximation initiale quelconque avec une vitesse 
superlinéaire. Sous l'hypothèse que f” (x) vérifie la condition de 
Lipschitz (2.8) on montre à l'aide des résultats précédents que si 
I Uxs 1 SH |, la convergence est quadratique. En effet, dans le 
lemme 3.1 l'estimation de la quantité Br; — Bivz; prend la forme 


IEXTRIES ce IP Ge + Toni) — F7 (œn) IN vu I, 


d'où, compte tenu de (2. " I Bavr: I LR Ilvu IP. Utilisons cette 
inégalité et l’estimation || 4; || < || fx n comme dans le lemme 3.1, 
nous établissons 


A —f1l= 112: SR Zl&l1 ur i<R Z Li ltf = Rx 11. 


En vertu de (2.4), le gradient f’ (x) satisfait à la condition de Lip- 
schitz de rapport 4. Donc 


BURN RIÉR-ÉLUSRM ax — 2 Il 


Maintenant on améliore comme suit l’estimation de la vitesse de 
convergence obtenue dans le théorème 3.1: 


Tata — Ze Mo I Ar — fre Te — ze N 
< M3 (Ar — fi + fe — fer + 0 (zx — ze) I) X 
| X [rs — 2e I SM (RM +R) Iles — 24 IP, 
i.e. 
Tata — Ze M CZ — ze Ê. 
Donnons un autre procédé de choix des vecteurs r4. Soit r; = 


= —À)f" (Yi), Yi = Ts Yita = Yi + rs i=1,2,...,n. Le système 
(3.18) prend alors la forme 


—hnARf" (ys) = f (it) — (y), i=1,...,n. 


La matrice À, ainsi définie (à un facteur numérique À, près) sert 
à construire le processus itératif d’Aitken-Steffensen. Nous ne nous 
occuperons pas des propriétés de cette méthode. Bornons-nous à noter 
qu'en réglant la valeur de À, on arrive à une convergence quadratique. 


4. Définition du vecteur p;. Le volume de calcul nécessaire 
pour trouver p, détermine essentiellement le coût du processus (3.4). 
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Nous allons construire le vecteur p, — —4;'f; en nous servant 
des particularités du système (3.6) donnant 4,. Nous réduirons ainsi 
considérablement le coût de cette construction. Commençons par 
l’inversion de la matrice À;. 

Une condition nécessaire d'existence de 4;! est la non-dégénéres- 
cence de 4,, ce qui exige à son tour l'indépendance linéaire du systè- 
me de vecteurs 64, . . ., Ep-n+1. Pour k suffisamment grand la matrice 
A, est régulière selon les conditions (3.16). Or, il se peut qu'à cer- 
taines premières itérations de (3.4) le système de vecteurs e4, ... 
…... Eh-n+1 SO0it linéairement dépendant. On procède alors comme 
suit : ou bien on modifie un des r,_; ou bien on fait un pas suivant 
l'opposé du gradient, ce qui modifie le système en question. Nous 
supposerons dans la suite l'indépendance linéaire du système e4, . .. 
rs Eh-n+1 pour tout À > n — 1. 

Le système (3.6) se récrit alors 


Aï'er-; = This L — 0, 1, ….. NN — 1: 


ou, sous forme d'équation matricielle, 
AGE, = Rh, (3.19) 


où E,, RA sont des matrices dont les colonnes sont formées par les 
coordonnées des vecteurs e,_;, et r,_; respectivement. 
On obtient à partir de (3.19): 


A; = R,En. (3.20) 


= La construction de À;!' exige donc en premier lieu qu’on calcule 
Ej"'. On trouve dans les cours d’algèbre linéaire (voir, p.ex., D. Fad- 
deev et V. Faddeeva [57]) que les lignes de la dernière matrice sont 
les vecteurs de la base s4, . . ., S3-n+1 duale (ou biorthogonale) de la 
base e,,....e:_1+,. Rappelons que deux systèmes linéairement indé- 
pendants de vecteurs a,, ..., a, et b,, ..., b, sont dits duals (ou 
biorthogonaux) sous les conditions 


(a;, b;) = 0 pour LÆ j, (a, b;) = 1. 
Si la base s,, . . ., S,-n+1 eSt duale de e,, ...,e:_-,+,. alors, en vertu 
des relations de dualité, SÈE, — 7, avec S, une matrice de colonnes 
composées de vecteurs s,_,. D'où S? — E;!. 

Chacune des E,, k — 0, 1, ..., ne diffère de ses deux voisins 
immédiats que par une colonne. La génération de la base s,, ... 
…... Sh-n+1 Se fait donc moyennant des relations de récurrence, ce 
qui en réduit sensiblement le coût. 

Supposons E;! déjà trouvé, i.e. nous avons construit la base 


Sps + + + Sh-n+1 Formons le système de vecteurs sys4, Sp, -.-, Sp-n+e : 


Sh-n+1 
Sh+1 


— A = Le 
(Sh-n+1: eh«+t) ” h+1-j k+1-j (Sx+1 J h+1) Sh+19 


j=1,...n—1. (3.21) 
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L'indépendance linéaire des e;+1, en, - . ; €h-n+2 entraîne 


(Sx-n+ar En+1) Æ 0. (3.22) 
En effet, vu la dualité des bases s,, . .., Sp-n+1 et @p: - . ., € -n+1 
On a (Sh-n+1r 6-5) = Opourj = 0,1,...,n — 2,etsi(ss_n+1 En+1) = 


= 0, il en découlerait la dépendance linéaire des e,4,, . . ., €x-n+e. 
Par conséquent, pour vérifier l'indépendance linéaire des vecteurs 
Eptis hr + + +1 Eh-n+e, Ü suffit de tester la condition (3.22). 
Assurons-nous que le système (3.21) constitue la base duale de 
Eh+ir + + ++ ER-n+e: 
En effet, 
2 __ (Shei-ns €ht) 
(sut, Ext) (Sh+t=ne Chat) 1, 
_ S nn" 
(Sn+1-js Ch+s) = (Sh+i-js Cn+4) — (Sn+1-js en) PettEn Pate = 0, 
(Sh+t-ne €h+1-j) 0 
(Sh+i-ns €R+) 


vu la dualité des bases e,, ..., ep-n+y @t Sn, ..., Sh-n+1: 


(Sa+1 Ep+1-j) — 


(Sh+i-ss Entim) = (Sn+i-js En+i-m) — (Sr+1-jr En) fetes Sete = Ôjms 
jim=1,2,...,n—1,6,, est le symbole de Kronecker (ô;; = 1, 
Ôjm — 0 pour j Æ m). Par suite, les systèmes de vecteurs e,+1, . . . 
…... Eh-n+e Ct Spy + + +» Sh-n+2 remplissent les conditions de dualité, 
d'où notre affirmation. 

Ainsi, la construction de la base 5,41, . . ., Sh_-n+2 (i.e. de la matrice 
E;1,) moyennant les relations récurrentes (3.21) s'effectue fort sim- 
plement. 

J1 est maintenant possible d'obtenir une formule élémentaire 
donnant la direction de déplacement p,. A cette fin mettons l’équa- 
tion (3.20) sous la forme 


ni 
Aj'— 2 rai = à (3.23) 


(l'indice * désigne un vecteur-ligne). 
Utilisons cette expression, il vient 


n—1 n— {1 
p=— Ati — D raish-ifis — 2 (sur fi) ru. (8-24) 


C'est précisément cette formule de la direction de descente dans les 
méthodes du type (3.4) qui est à la base de l’appellation « méthodes 
des directions duales ». Compte tenu de (3.24), la formule (3.4) peut 
s'écrire 
n—1 
Th+i = Th — LR à (Sx-5, fr) Thoi (3.25) 
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ou, en coordonnées, 
n-1 n 


fs) 
Ti = — 0 Ÿ DR __ Th, 


10 1 
v=1i,...,n. 


En fait, c'est cette formule-là qu'il faut utiliser pour obtenir des ap- 
proxzimations successives. 

Notons de plus que l'expression (3.23) permet d'obtenir la for- 
mule récurrentielle de calcul de 4;'. Nous la citons toute prête : 


Añh4 = À + (Try — Ai'er) S+1. 


Sa validité s'établit sans peine si on multiplie directement la matrice 
ainsi construite par les vecteurs ez+:1, ex, . . ., E-n+2. 11 Se trouve que 


| CRE 
Akhientii = Papin = 0, 1, ..., nr —1, 


i.e. la matrice A; satisfait au système (3.6). 


5. Démarrage du processus. Le processus itératif (3.4) n’a débuté 
jusqu’à présent qu'avec À = x — 1 vu que pour définir 4, il faut n 
vecteurs r, et autant de vecteurs e, associés. 

Les premières itérations (4 << nr — 1) s'effectuent de différentes 
façons. On utilise par exemple la méthode de la plus grande pente: 
Th+1 = Th — Qnfr, An >0, k = 0, À, ..., nr — 2. L'algorithme se 
réalisera uniformément à partir de la première itération si, pour 
0O<k<n—1, le calcul est organisé comme suit. 

Posons 45! — Z et mettons-la sous la forme 45! — R,E;?, où 
Rs = 1, E;" = 1, ou (en recourant à (3.23)) 

n—1 


Ào = 2 To-150-1 


OÙ Fp» Tops + + es l'ont @Ù Sos S-1r + + +» S-n+1 Sont éléments des bases 
orthonormées unitaires. Par suite, 
n-1 


Ti = To — Lo à (for So-1) ro-1- 


Calculons les vecteurs r, et e, et construisons, moyennant les formules 
(3.21), la base 


Si — 


Sn+: 
(S-n+1, €)? 
et l’approximation suivante: 
ni L 
T2 = Li —Q: 2 (fs Sas) rise 


St — Si-fs — (S1-f, 1) Si, 11, .….) n—1,; 


Îl est immédiat de construire les itérations suivantes. 
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6. Minimisation d’une forme quadratique. Illustrons les métho- 
des des directions duales pour la recherche du minimum d’une fonc- 
tion quadratique. Soit 


f(x)= + (Az, 2) +, D +c. 


Ici À est une nr X n-matrice symétrique strictement définie positive 
à éléments constants : (Az, z) >> 0 quel que soit x = 0 ; b un vecteur 
et c un scalaire. Le gradient de cette fonction est f” (x) = Az + b 
et le vecteur 


€; — Îf' (x + ri) — jf’ (x) = Ar:;. (3.26) 
Par conséquent, si r;,, ...,r, est un système linéairement indépen- 
dant et s1,...,5, la base duale de e,,..., e,, alors on a, en vertu de 


(3.20) et (3.23), 
A =R,Er" =D rs*. 
{mi 


Puisque, conformément à (3.26), la matrice À se définit par le systè- 
me d'équations Ar; —=e;,i—1,2,...,n,ona 


At=R,E;' =D ris, (3.27) 
i=1 


ie. Az! A"!, Donc 
Tn+1 = Tn — Affn = In — À (Az, + b) = —A"b (3.28) 


et fn4i = —A4A4"1b + b = 0, ie. ziy = 2. 

Pour minimiser une fonction quadratique par les méthodes des 
directions duales il faut donc calculer son gradient en nr + 1 points 
et construire la duale de la base de vecteurs e,, . . ., e,. Si l’on consi- 
dère le calcul successif des e,, . . .,e, comme une procédure itérative, 
on peut dire que les méthodes en question permettent de réaliser le 
minimum en un nombre fini de pas. 

Remarquons pour conclure que le problème examiné équivaut à 
la résolution du système d’équations linéaires Az — —b. Avec les 
techniques utilisant des directions duales on résout donc un système 
d'équations linéaires au bout d’un nombre fini d'’itérations. 


7. Discussion des propriétés des méthodes. Les méthodes des 
directions duales permettent de trouver le minimum d'une fonction 
régulière strictement convexe à partir de toute approximation ini- 
tiale, la convergence de la suite {x,} vers la solution étant super- 
linéaire. Le procédé de choix du paramètre &; garantit l'obtention de 
la valeur cherchée de «; après r fractionnements. Il est vrai que 
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dans le processus (3.4) comme dans les méthodes des paragraphes pré- 
Cédents «; peut être choisi à partir de la condition de minimum dans 
la direction de déplacement, mais cette façon d'agir est plus labo- 
rieuse. 

En ce qui concerne l'évaluation de la vitesse de convergence, 
les méthodes de la classe considérée s’approchent de la méthode de 
Newton. Comparons leur coût par itération. Dans les processus du 
type (3.4) avec 4, définie par le système (3.6) la recherche de 4;! 
nécessite le calcul du vecteur e, et la construction, selon les formules 
récurrentielles (3.21), de la base duale de e4,,..., ex_n,1. 

On construit le vecteur e, (n° 3) en calculant le gradient de la 
fonction en un ou deux points. Du fait de former la base duale moyen- 
nant (3.21) on en diminue le coût de n fois (et même de plus si on 
vérifie les conditions de non-nullité du dénominateur dans les for- 
mules générales régissant la construction de la base duale)!par rapport 
à des procédés habituels (D. Faddeev et V. Faddeeva [57]). 

On constate donc en premier lieu qu’à la différence de la méthode 
de Newton, celles des directions duales n’exigent pas qu’on trouve 
des dérivées secondes de la fonction. Une comparaison avec l’analo- 
gue aux différences de la première méthode montre que la construc- 
tion de la matrice A;! coûte environ n fois moins pour les directions 
duales parce que dans la méthode de Newton on calcule les dérivées 
en nr + À points par itération et on inverse la matrice À, sans recourir 
à des relations de récurrence. 

Au lieu d'inverser 4;, on définit la direction de déplacement p4 
dans la méthode de Newton aux différences en résolvant un système 
d'équations linéaires (de même que dans la version classique). Dans 
ce cas. l’évaluation quantitative des coûts relatifs des processus du 
type (3.4) et de la méthode de Newton est fonction du nombre d’opé- 
rations nécessaires pour résoudre le système d'équations, mais elle 
est, dans ce cas également, environ n. Si l’on veut par exemple ré- 
soudre le système par des directions duales (n° 6), on a en fait à 
calculer la matrice A;! sans utiliser les relations récurrentes, ce qui 
demande, nous l'avons dit, nr fois plus de calculs que lorsqu'on le 
fait moyennant les formules (3.21). 

La résolution du système d’équations linéaires par les méthodes 
des directions conjuguées (voir paragraphe suivant) exige sensible- 
ment le même effort. 

Ainsi, les méthodes des directions duales exigent, à convergence à 
peu près égale, beaucoup moins de calculs par itération que la mé- 
thode de Newton. 

Elles présentent cependant l'inconvénient de provoquer, quand 
il s’agit du calcul sur machine, un grand encombrement de mémoire 
puisqu'il faut stocker deux systèmes de vecteurs rx,rp-4, ..., ant 
@t Sx, Sh_1»-- + Sk-ns1s 1-0. deux matrices r X n. Cela restreint leur 
emploi dans la résolution de problèmes de plusieurs variables sur 
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machines à mémoire rapide de capacité limitée. On y pallie en partie 
en prenant pour r;, des vecteurs dirigés suivant les axes de coordon- 
nées auquel cas on ne conserve en mémoire qu'un seul n-vecteur (au 
lieu du système r;, ..., rr-n+1)- 


$ 4. Méthodes des directions conjuguées. 
Minimisation de fonctions quadratiques 


1. Directions conjuguées et leurs propriétés. Reprenons le pro- 
blème de minimisation de la fonction quadratique 


f(2) =5 (Az, D +6, D +e, (4.1) 


où (Az, zx) > 0 pour tout x = 0 (n° 6, $ 3). On constate aisément que 
la minimisation d’une fonction quadratique se ramène en fait à 
l'inversion de À : connaissant À -! la solution s'obtient immédiate- 
ment par les formules (3.28) 


Ty = To — Alf, = — Ab, (4.2) 


z, étant un point quelconque. 

Pour calculer À -! à l’aide des expressions (3.27), il faut, après 
avoir choisi un système linéairement indépendant p,, . . ., p,-, (nous 
notons ici p; au lieu de r;), trouver les vecteurs correspondants 


= f (zi+p)—f(x) = Aps i=0,1,...,nr—1, (4.3) 


z; étant des points arbitraires, et construire une base s,, ..., Sh_ 
duale de e,,...,e,_, i.e. telle que 


(s, e) =1, (s, ê;) —= 0 pour i£)j. (4.4) 


Ces relations s'écrivent également, en vertu de (4.3), 


(si, ADi) — 1, (s:, Ap;) — 0, i Æ j. (4.5) 


Un cas particulièrement intéressant est celui des vecteurs po, ... 
+... Pn_1 A-Conjugués (ou conjugués tout court), i.e. vérifiant les 
conditions 


(Pi Ap;) = 0, iÆj. (4.6) 


Un système de vecteurs po, . - ., Pn-1 (non nuls) remplissant les con- 
ditions (4.6) est linéairement indépendant (en tant que systhème ortho- 
gonal dans la métrique définie par une matrice régulière), et il peut 
donc être utilisé pour définir e; par les formules (4.3). Les vecteurs s, 
vérifiant (4.5) se calculent alors selon les formules fort simples : 


nn — ee 
amp) 0,1,...,n—1. (4.7) 
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Si les vecteurs ps, . .., Pr Sont A-conjugués, la matrice À” 
s'obtient donc par la D ee o 27)) 


=> Pit — > Es d (3.8) 


i—=0" 


i.e. le problème d'inversion de À et, par là même, celui de recherche 
du minimum de f (x) se résout de façon très simple. 

Voyons le problème de recherche de zx, par des vecteurs conjugués 
d'un point de vue légèrement différent et établissons en passant 
plusieurs propriétés intéressantes des directions conjuguées. 


Puisque po, . . .; Pn 1 Constituent une base dans E”, on représente 
TZ, comme 
n-1 
Ze =T+ >. @ipPi- (4.9) 
i=0 
Mais en vertu de (4.2) et (4.8) 
n—1 
__PiPi 
SE 2 KApis Pa) do 629) 


Il résulte de (4. 9) et (4.10) 


To + 2 ŒPi = Lo— 2 a x 


ou, sous une autre un 


To+ D'uPi = T— À à rAre D Pie (4.11) 


î 


Vu l’unicité du développement d’un vecteur suivant la base, la der- 
nière égalité permet de définir les valeurs des coefficients «, dans 
le développement (4.9) 


_— __UÜos Pi) __ ___(fo Pi) : . 
M Pan D — MT i=0, 1,...,n—1. (4.12) 


Si l’on connaît donc un système de vecteurs conjugués, le point 
de minimum de la fonction quadratique (4.1) se définit facilement 
par les formules (4.9), (4.12). 

La définition du point x, par la formule (4.9) peut s’interpréter 
comme génération successive de points: 


Lits — Li + QD; L = 0, 4, ce...) 7 — 4, (4.13) 


avec a; donnés par (4.12). Par suite, le problème de minimisation 
d'une fonction quadratique se résout par directions conjuguées en un 
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nombre fini de pas égal au plus à n (le nombre de points du processus 
itératif (4.13) peut être inférieur à x si certains &,; du développement 
(4.9) sont nuls, i.e. si (f,, p;) = 0 pour certains i). C’est la propriété 
la plus importante des directions conjuguées. Elle révèle l'efficacité 
des vecteurs conjugués dans la recherche du minimum d’une fonction 
quadratique et explique la grande popularité des méthodes du même 
nom. | .. 
On montre en tantj que conséquence intéressante du résultat 
obtenu que Le point x, généré par les formules (4.13), (4.12) réalise le 
minimum de la fonction (4.1) sur un sous-espace engendré par les vec- 
teurs. Pos + + +, Pi-1 Et Passant par Lo. 
En effet, soit 
_ 1-1 —_ 
Ti — Lo SE D Ph 
k=0 


&, étant quelconques. Pour que Z; soit point de minimum d'une 
fonction dérivable strictement convexe sur un sous-espace formé 
par les vecteurs p,, . . ., Pi, il faut et il suffit (conséquence I.4.4) 
qu'on ait 

G'(mi), py) = 0, j=0,1,..., i—1. (4.14) 


Mais quels que soient 0<j<i—1 
oh A 
(Fa) ps) = (Ami +b, p;) = (4 (xo +2 &xPx) +b, ps) = . 


jai 
=(420+b, ps) + D @ (Apr, pi) = (for Ps) + @y (Apy, P:)- 
R=O  , 


I1 en découle, compte tenu de (4.14), que le point x, réalise le mini- 
mum de la fonction sur un sous-espace formé par Po, .- .., Pi-1 et 
passant par le point x, si (et seulement si) (f,, p;) +@;(Ap;, p;) —0, 
i.e. 

— — _ Uos Pi) 

&J (AP; Pj) 


Mais ces coefficients coïncident avec «, calculés par la formule 


(4.19), i.e. le point z; en lequel est atteint le minimum cherché se 
confond avec zx; (4.13). Donc 


G'(zi), py = 0, j=0,1,...,i—1. (4.15) 


On voit donc que la recherche du minimum d’une fonction qua- 
dratique dans l'espace E” par les formules (4.13), (4.12) peut s'inter- 
préter comme minimisation successive dans des sous-espaces de 
dimension & + 1, i = 0, 1,..., nr — 1, chaque point de minimum 
étant trouvé par le calcul d’un seul coefficient «;. 


78 METHODES DE MINIMISATION DE FONCTIONS SANS CONTRAINTES (CH. II 


Pour obtenir ces derniers moyennant les formules (4.12) on calcule 
en fait, au lieu de la matrice des dérivées secondes À, les vecteurs 
e; = f (x; + pi) — f' (xi) (voir (4.3)), i.e. les seules dérivées pre- 
mières de la fonction. 

On s’assure sans peine que les formules (4.12) donnant les coef- 
ficients a; sont susceptibles de prendre une autre forme. En effet, 
définissant z; par (4.13), on a 


Gp = H—hi+thi—...— fi + fi pi = 
= (—@04 Po er, 14 P:1 Gi AP; + fi, Pi), 


et, les vecteurs: p,, ..., p; étant 4-conjugués, il vient (f,, p;) = 
—= (fi, pi). Par suite 


Vip) Gb) : 
Sr TNT AT i—0, 1,...,n—1. (4.16) 
Il s'ensuit que si pour un certain O0 << i n—1onaa; — 0 (i.e. 
Zi+1 = Ti) dans (4.13), alors (fi, p; ) = = (. Réunissons cette égalité 


avec (4.19): 


(Jia Pj) Sn (fi, Pi) = 0, ] — 0, 1, ._. d. 

Ainsi, l'annulation du coefficient «; signifie que le point x; corres- 
pondant réalise le minimum de la fonction quadratique sur un sous- 
espace engendré par les vecteurs po, . . ., p, et passant par le point xo. 

Enfin, en vertu de (4.15), (fi, p:-1) = 0, en d’autres termes, le 
choix des «; selon les formules (4.12) ou (4.16) équivaut à leur choix 
à partir de la condition 


f (xi + œipi) — EU f (ti + api). 


2. Construction des méthodes. Nous avons parlé plus haut (n°1} 
de l'efficacité des directions conjuguées lorsqu'il s’agit de minimiser 
une fonction quadratique, mais nous avons passé sous silence la 
construction de tels vecteurs et le coût de cette procédure. 

Chacun des procédés de construction de vecteurs 4-conjuguës 
que nous allons étudier déterminera une méthode des directions 
conjuguées consistant à former des approximations successives du 
minimum de la fonction (4.1) à l’aide des formules (4.13). (4.12) 
(ou (4.16)). 

L'efficacité des techniques des directions conjuguées dépendra 
directement de l'effort de calcul nécessaire pour construire le système 
de vecteurs conjugués. Si la dernière opération s'avère trop laborieuse, 
la méthode ainsi définie risque d’être peu puissante (par rapport à 
des algorithmes d’autres classes). On ferait donc bien de formuler les 
conditions générales que tout procédé de construction doit vérifier 
pour avoir une méthode des directions conjuguées suffisamment ef- 
ficace. 
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Premièrement, en construisant les vecteurs on peut se borner à 
calculer la fonction et son gradient et négliger les dérivées secondes. 
Au cas où cette condition n’est pas satisfaite, la recherche du point 
de minimum d'une fonction quadratique par la méthode (4.13} 
peut exiger qu’on calcule la matrice des dérivées secondes et, de 
plus, les valeurs des gradients en plusieurs points. Aussi une méthode 
des directions conjuguées impliquant le calcul de la matrice des 
dérivées secondes est-elle en général moins efficace que celle de New- 
ton (à l'exception éventuelle de problèmes où l’in version de la matrice 
À est sensiblement plus laborieuse que son calcul). 

Deuxièmement, la construction de vecteurs conjugués se fait 
avec la seule information sur la fonction aux points de la suite 
(4.13). Autrement dit, ce processus doit marcher de sorte que le 
vecteur p;, 0 Lin — 1, se définisse moyennant la seule infor- 
mation sur les valeurs de la fonction et de son gradient aux points 
To» - + -» Ti. 

Cette exigence fait se limiter à des techniques de construction 
telles que la condition 


(is p) =0, 0<Li<nr—1, (4.17) 


n'ait lieu que si f; — 0. En effet, si on a (4.17), alors a; — 0 en vertu 
de (4.16) et, partant, z;,, — zx; dans la suite (4.13). Cela signifie que 
la (à + 1)-ième itération ne fournira aucune information nouvelle 
sur la fonction et qu'il sera donc impossible à ce stade de construire 
un vecteur p;+, # p;. Le processus s'arrêtera donc avant d'atteindre 
la solution si f; — 0 

Ainsi, tout procédé de construction de vecteurs conjugués (et la 
méthode associée des directions conjuguées) doit vérifier la condition 


is p)ÆO0 si fi 0. (4.18) 


Cette condition garantit &«; — 0 à toutes les itérations. 

En élaborant des algorithmes nous supposerons remplie (4.18). 
Une fois qu'un algorithme sera construit, nous vérifierons s’il en 
est bien ainsi et dans la négative nous imposerons des contraintes 
supplémentaires sur l'algorithme. 

Ces remarques aidant, abordons directement les relations permet- 
tant de former des vecteurs A-conjugués. 

Notons 


Ti = Liga — Ti = Gi, €; = figs — fi = QiAp;. (4.19) 
Prenons comme p, une direction de descente quelconque de la fonction 
(4.1), i.e. posons p, = —H$f,, H, étant une matrice symétrique 
strictement définie positive. Etablissons les exigences que doit 
remplir le vecteur p,, 1 < k < nr — 1, pour être dans les conditions 
de A-conjugaison : 


(Pr, Apy) =0, 0Lj<k—1. (4.20) 
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Nous utiliserons le fait qu’en vertu des propriétés des directions 
conjuguées (voir (4.15)), si l’on choisit «; dans (4.13) par la formule 
(4.16), on a, en plus des conditions (4.20), les égalités 


Gi, ph =0, 0Lj<k—1. (4.21) 
Si l’on pose 
Pr = —Hifs, (4.22) 


H, étant une matrice carrée n X nr, la condition (4.20) se récrit 
Gh, HrAp;) =0, OLKj<Lk—1. 


La comparaison avec (4.21) montre que celle-ci implique (4.20) 
si la matrice A, vérifie les relations 


Hip; = apy 0<i<k—1, 


avec a une constante quelconque. 

Du moment qu’en vertu de la condition (4.18) et de la convexité 
stricte de (4.1) on a0<]|a;|-< © quel que sit0O<i<nr—1, 
les égalités (4.20) et (4.21) s’écrivent, compte tenu de (4.19), 


(re) =0, 0Lj<k—1, (4.23) 

(fn, r5) =0, 0<Lj<k—1, (4.24) 
et les conditions imposées à A, prennent la forme 

Hie; = ar, 0Lj<Lk—1. (4.25) 


On a donc les conditions (4.20) si A, définissant le vecteur p, 
par la formule (4.22) vérifie les équations (4.25). 

Si &k << n — 1, le nombre d'équations vectorielles (4.25) est infé- 
rieur à z et H, se définit de façon multivoque. De plus, les systèmes 
d'équations donnant H, diffèrent selon la valeur de la constante a. 
Cela atteste la diversité des algorithmes de construction de direc- 
tions conjuguées parce que }, différentes s’obtiennent par des mé- 
thodes distinctes. 

Les équations (4.25) étant satisfaites pour tout À = 1, 2, ... 

.., R — 1, il est naturel de construire la matrice H, à l’aide des 
relations de récurrence. 

Mettons (4.25) sous la forme 


Br + AH;,-)e; = ar, 0O<j<k—1. (4.26) 
Hier) OS j < <k—72, 
il résulte de (4.26) que AH, _.‘est définie par les conditions 
AHy-8) —= 0, (0 < j <'k — 2. (4.27) 
AHh-1€r-1 = Arr — Hrer 1. 
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La dernière égalité a évidemment lieu si l’on pose 
AHyn= a n=itht  Hasenrh-t (4.28) 
FU (uns ent) (ns ent) ? | 


avec Un-1, Ur les vecteurs inconnus. On choisit ces vecteurs de 
façon à avoir la première condition (4.27), i.e. on a 


(Un 6) = 0, (rxe)=0, 0Sj<k—2 (4.29) 
On conçoit qu'ils doivent également remplir les conditions suivantes : 
(nus en) Æ O0, (ru ni) Æ 0. (4.30) 
En prenant en considération (4.23) on comprend que les conditions 
(4.29) sont remplies pour uy_1 = Ur = ry-1. On a alors (4.30) 
puisque 
(F1 Eh) — (TR 1 Ark 1) > 0 (4.31) 
conformément aux propriétés de la matrice À. 
On peut également choisir u,_,, v,-, à partir des considérations 
suivantes. Si l'on a (4.20), alors 


(Apr: P5) = 


Par suite, compte tenu de (4.25), 
a (ex-1, r'j) = (6x1, Hy-1e;) — (H}-1, en e;j) — 0. 


nr r)=0, 0i<k—2. 


Lh1 @j 


et, pour avoir (4.29), on peut poser 
Uni = Ur = HE-jer 
Si l’on choisit généralement les vecteurs en question sous la forme 
Up = Éirrhe1 À lo nHR-1eh=1 (4.32) 
Vhui = tank À nier 


AVEC th lohs ta. ln des nombres arbitraires (qui peuvent en prin- 
cipe varier avec k). on a évidemment les conditions (4.29). Pour avoir 
(4.30) on règle au besoin les quantités t;,, i = 1, ..., 4 (en parti- 
culier, ces conditions sont vérifées, nous venons de le dire, pour {,, — 
—= Lah = 1, Lo = Loh = 0: voir (4.31)). 

Le choix des vecteurs u, _,. 0, -, sous forme (4.32) permet donc de 
générer la matrice AH,., par la formule (4.28) et de définir par là 
même des relations récurrentes pour construire une matrice /7, 
telle que le vecteur p, qu'elle définit satisfasse aux conditions (4.20). 
Ceci étant, il correspond à tout couple de vecteurs u4_,. v,_, et à la 
constante a une matrice A//,-_, et donc F7, déterminées. En d'autres 
termes. selon les vecteurs u,, v, et la constante a choisis, on obtient 
divers algorithmes de construction de vecteurs conjugués, i.e. les 
différentes méthodes des directions conjuguées. 


&—01508 
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3. Propriétés générales des méthodes. Dégageons les propriétés 
générales dont jouissent les méthodes des directions conjuguées cons- 
truites de manière décrite. 

On élucide avant tout si, pour des méthodes étudiées, on a la 
condition (4.18) vu qu'en établissant les principes à la base de la 
formation des algorithmes cette condition est supposée remplie. 

Une autre question intéressante à trancher concerne les directions 
Pis i =0,1,...,n — 1, définies par H, différentes. On veut préci- 
sément connaître si ces directions diffèrent, i.e. si les points x;, . .. 
... Tn1 diffèrent selon l’algorithme (le point x, étant le même) 
ou s'ils coïincident. 

Pour répondre à ces questions, utilisons la formule de récurrence 
pour la matrice H; et les expressions (4.28). (4.32) et mettons le 
vecteur —p; — H? f;sous la forme 


HŸT; = (Hi + AHjn)* fi. 
Compte tenu des conditions (4.24), 


E (Uj-19 ej-1) EH 
 __ (t3,1rji +43. HS -1e;-s) (ej-ss H5-1f5) 
(Vj-1, €j-1) 


AH: ; 2 jt (ej-1s HŸ-1j;j) 


Si l’on se rappelle que 
H}_ejs = Hifi — Hifi = Hi af; + pins 
le vecteur — p; se récrit 
+$ _ ET $’ __ te. (et HŸ-1f;) _ 
HŸf; = HŸ-1f; [4 (0-1, ej-1) } 
t se? t 1e? 
=. 3, 7} 1e 5, JPj-1€5- 1 H*_1f; = 


(CJERT ej-1) 
u,. * 
= [ir (4 fes (Gn HG \ rue 
[y (1 (jt, €j-1) ) (Uj-1, €7-1) (. + 
L,, 4 , 
+ Œj-1 )] Hs. 
Ensuite, 
(y ep) = (ls, in la ist ja) = ts, (Tin €) + 
hs (er Hifi) Lt, ;(e;s, pi), (4.33) 


ce qui fait que 
(rj-1, ej-1) (4 Fr ts, j 4 ts. j(e. H5-1f;) 


(vj-1, ej-1) &j-1 (vj=1 €j-1) 
Usilisons cette expression pour la formule donnant H}f;, il vient 
| #f, — _ rj1e) 1 «+ 
H3f5= vs (1— ES) Hÿfs, (4.34) 
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vs TBIGEE H}-1f;) 
UT | (Uf=1» €j-1) | 
Si le vecteur v;1 vérifie la condition (4.30) et œjuts 55 —t6. 3, 
alors, quel que soit j—1, 2,..., le facteur y; est différent de 
zéro parce que 
ti. j(ej-ss H3-1f5) 
(vj-1, ej-1) #1, 
ce dont on se covainc facilement en comparant le numérateur avec 
l'expression (4.33). Nous raisonnerons dans la suite en supposant 
les facteurs t:,; et t,.; choisis de façon qu'on ait (v;1, e;1) 0 et 
VÆ0 pour j21. 
Multiplions scalairement par f; les deux membres de (4.34): 
IL gt) , (fn. r j-1) ej_1 # , 
Gi, Hjf}= [Go SORT Hi. (4.35) 
Puisque y; 0 et (f,, H?f;) = 0, (fn, r5) = O0 pour j < k — 1 (en 
vertu de (4.21) et (4.24)), il découle de (4.35) 
Un, Hÿ_af5) = 0, 1<j<k —1. (4.36) 
Retranchons de (4.36) les égalités (7x, H}_1f5-1) = 0,1<j < k — 1, 
il vient également 
(fi, Hfe) =0, 0OLSi<k— 72. (4.37) 
Utilisons les relations obtenues pour prouver qu'on a, pour 
OZi<j—2, les égalités HŸ,1f; — HŸf;, i.e. 
Hits = Ho =... = Hifi. (4.38) 
Moyennant la formule récurrente pour la matrice H; et les EonQIrIOns 
(4.24) on récrit le vecteur H?,1f;: 
v; (ie. f;) 


Hate BR, OGiSj-2. (4.39 
Les égalités (4.38) se démontrent en faisant voir que 
Gi, Hey) = 0, 0O<Li< j—2. (4.40) 


Utilisons une fois de plus la formule récurrente pour H,, il vient 


Hses) (vs, €is1) 


î 
: | (J: 
(fi, Hisie;i+1) = (f5, Hoti+s) — > 2 


0 (Uss €s) . (4.41) 
O<i<j—2, 
7. , (os 12) (Hits, ei) 
(fi, Hisieis) = (5, Hoei+s) — > a CRE (4.42) 
s—=0 
OSi<j—2. 
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En vertu des conditions (4.24) et (4.37), 
(D, fj) = Lai (ri, f;) + le. (Hie;, f;) Fe 0, 0 < l < ] — 2. 
(4.43) 
Vu ces égalités et les conditions (4.37), (4.42) entraîne 
(5, Hotita) = 0, 0O<Ki< j—3. (4.44) 


Analysons les relations (4.41). Pour i — 0, on a (H4e,, f;) = 
= (HŸeo, f;) = 0 (en vertu de (4.37)) et (f;, Hoe,) — 0 (en vertu de 
(4.44)). T1 se trouve donc que (H,e,, f;) = 0. En poursuivant de la 
sorte on établit la validité des égalités (4.38). 

Compte tenu de celles-ci, (4.34) se récrit 


M £" rie 1 , 
HF; = Y; (7 Do) Hof;; (4.45) 
formule qui permettra de répondre aux questions posées au début 
de ce numéro. 

En multipliant (scalairement) par f; les deux membres de (4.45) 
et en tenant compte des conditions (4.24) on obtient 

— (#5, p5) = Y;5 Gi Hot), j 2 0. (4.46) 
Si H,est strictement définie positive, alors (f;, H0f;) > 0. Par suite, 
si y; Æ 0, (4.46) entraîne (f;, p;) Æ 0. 

Ainsi, l'égalité (4.46) entraine que l'hypothèse sur la condition 
(4.18), hypothèse utilisée dans la construction des vecteurs conjugués, 
est juste à condition de prendre pour H, une matrice symétrique stricte- 
ment définie positive. 

Pour voir si les vecteurs p; et les pointszx;+,, i — 0,1,...,n — 1, 
diffèrent selon l'algorithme choisi, reprenons la formule G. 45). 

Quelle que soit la méthode des directions conjuguées, le premier 
pas reste le même (pour une même /7,) puisque x, = 2, — aoH$f,, 
et æ«, est choisi à partir de la condition min f (x, — «Hf,). Par suite, 


œ 
Je point zx, et donc les vecteurs r,. e,, f, sont les mêmes pour tout 
algorithme construit comme nous l’avons décrit. 11 résulte alors de 
G- 45) que la direction. 


Pi _ Hf, = — Ÿ1 [I — ro, +. Hof; 


ne dépend pas elle non plus du choix des vecteurs 0,4, uo (vérifiant 
les exigences formulées), i.e. elle n'est pas fonction de la formation 
de la matrice H,. Plus précisément, les vecteurs Pi ainsi obtenus ne 
diffèrent que par le facteur scalaire y,. La quantité &, étant choisie 
par la condition me Î (+ &p), le point x, réalisant ce minimum 


dst le mème quel que soit le procédé de formation de H, (en vertu de 
la convexité stricte de f (xz)). Par suite, c’est également la propriété 
des r;, €, f.: ces quantités restent les mêmes pour toute méthode des 
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directions conjuguées. En nous inspirant toujours de la représenta- 
tion (4.45) du vecteur p, nous verrons enfin que les points xs, 71, . .. 

. ., ZA Sont indépendants du choix des vecteurs v;, u,. i.e. du procédé 
de construction de la matrice F,. Ainsi, on obtient les mêmes approxi- 
mations successives de la solution d’un problème de minimisation 
d’une fonction quadratique dans toutes les méthodes des directions 
conjuguées. 

Signalons le fait suivant. 

Nous avons remarqué que la première des deux matrices formant 
AH ; (4.28), j = 0,1,...,k — 1, ne participe pas dans la construc- 
tion de p,. En effet, en définissant le vecteur AH*f;, on a, en vertu 
des conditions (4.24), 


a (rp f) | 
ne) OK j<k—1, 
i.e. les matrices 
rju? : 
x €) ? 0Sj<k—1, 


ne prennent pas part à la formation du vecteur —p; = pifs = 


— (H, + à AHj)* fi. Elles n'en influent pas moins essentielle- 
j=—0 


ment sur les propriétés de la matrice F,, en particulier sur celles de 
H,. Nous en tiendrons compte au numéro suivant où nous étudierons 
des algorithmes concrets. Notons pour le moment que s'agissant de 
la recherche du minimum d’une fonction non quadratique, les pro- 
priétés des méthodes des directions conjuguées se ressentiront de la 
différence de propriétés des H,. 


4. Algorithmes concrets. Considérons plusieurs formules permet- 
tant de construire des directions conjuguées. Répétons que chacune 
d’elles détermine une méthode des directions conjuguées consistant 
à construire les approximations successives de la solution par les 
formules 


Th+1 = Lh + ŒnPrs Pr = —Hifr k=0,1,...,n— 1, 
(4.47) 
ar étant choisi à partir de la condition min f (x; + ap:), i.e. il est 
défini par les expressions (4.12) ou (4.16). 
1) Posons dans (4.28) a — 1, ux_, = rp_1, Un-1 — Hi-1er 1 (i.e. 


dans (4.32) lin = l —— 1, Loh = Lo — 0, Lak ——. la == 0, La — l, —= 
— 4). Alors 

Th=17R 1 Hh-ien-1ef _ 1; Hu 
ES DS ep A LE is À 
É it (Th=1s €h-1) (HF _4€hk=1. Eh-1) 


Etudions des propriétés de la matrice 7, ainsi obtenue. 


(4.48) 
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La matrice H, est symétrique. On l'établit facilement par récur- 
rence. La matrice H, est symétrique. Îl en est également des deux 
matrices formant A, (la seconde l’est en vertu de la symétrie de Æ,). 
Donc }Æ, jouit elle aussi de cette propriété. On raisonne de même 
pour tout # — 2, ...,n. 

La matrice H, est strictement définie positive. Raisonnons par ré- 
currence. La matrice H, est strictement définie positive. Soit A}, 
une matrice strictement définie positive. On a alors pour tout x € E" 

LUE x)? Hyez. x)? 
_ (Hnz, x) (Hyer, able z)® L'(rr, x)° 
(Hnex, en) (rh en)2° 


Avec l'hypothèse sur A, il existe une racine carrée AY? (D. Faddeev 
et V. Faddeeva [57]). La matrice H, étant symétrique, on a donc 


(Hays. 2) = (Hi Hyx, x) = (Hz, Hi?) = (y, y). 
De même 
(Hier, ex) = (A ‘ep, Hy/'e,) = (2, 2), 
(Her, 2) = (Hyex, Hy?z) = (2, y). 
Compte tenu de ces relations et de l’inégalité de Cauchy-Bouniakov- 
ski, on établit l'inégalité 
(Hz, 2) (Hier, ex) — (Hren, 2) = (y, y) (, 2) — (2, yŸ > 0 


l'égalité n'ayant lieu que si z = y, i.e., en vertu de la régularité de 
H},. seulement pour zx —e,. D'autre part, (r;, zx) = (rx, er) = 
= (r,. Arz) >> 0. Aïnsi, pour tout x différent de zéro, 


(Hy4x, x) = (y, y) (2, z)— (z, y)= + (rh z)° > 0, 


(Hhens en) (rs €h) 
ce qui démontre la justesse de nos raisonnements. 
La matrice H, — A”'. En effet, H, satisfait aux équations 


(4.25) pour a — 1" ie. He; = r;,j = 0,1,...,n — {, ou, compte 
tenu de (4.19), 


HAAr;=rn, j=0,1,...,n—1. 


Les vecteurs r,, . . ., rn-, Sont donc vecteurs propres de la matrice 
H,A avec valeurs propres égales à l’unité. Vu l'indépendance linéai- 
re des vecteurs conjugués r;, à = 0, 1, ..., nr — 1, il en découle 
H,A = T7, i.e. 
H, = A”. 
Mais (voir (4.8)) 
n—-1 


6 CAT _ rire 
À *à (Ars ri) 2 Tr rs Gr)? 
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i.e. À, est définie par les seules matrices 
r;u? rar? 
re) (re) 
{fait mentionné à la fin du numéro précédent). 
2) Une autre méthode de construction de H, consiste à poser 
a — 1 dans (4.28) et à choisir u,_, = vy.y = al Alors 
Hy = Hyu+(rru— Hier 


À Ten ex ra 1° en 6539) 
Cette fois, la matrice H, n'est pas symétrique. Puisque a = 1, on 
a H, = A”! (la démonstration coïncide avec celle pour la méthode 
(4.48)). 
Moyennant (4.49) on construit une formule quelque peu différente 
pour définir A,. Mettons (4.49) sous la forme 
Rh—1 
= H+ Y (ri — Hie;) —— 


i—=0 


Fr — (4.50) 


En vertu des conditions de conjugaison (4.20) (compte tenu des for- 
mules (4.19)) on a (e,, r;) = 0, 0< j<À— 1. Par conséquent, 
(4.50) entraîne 

Hyerx = Her, k=0,1,...,n — 1. (4.51) 


Etant donné cette égalité, la formule (4.49) se récrit 


Hy = Hp + (ras — Hot) — (4.52) 
Si H, =1I, (4.52) s'avère plus simple que (4.49). 
3) Prenons a = 0, v;,_, — r,_. Ceci étant, 
Hp-jen-sré _ à 


(rR-1r €h-1) (599) 


(4.25) entraîne, pour a = 0, He; = 0, j = 0,1,..., nr — 1. Etant 
donné l'indépendance linéaire des vecteurs e,, . . ., e,-.1, ces égalités 
signifient que À, = 0 (l'indépendance linéaire des e; — Ar;, i — 
= 0, 1,..., nr — 1. découle de celle des vecteurs conjugués r; et 
des propriétés de la matrice À). 

Puisque la condition (4.51) a également lieu pour (4.53), la der- 
nière formule peut se mettre sous la forme 


Hoer-aré 1 
(rh-1, eh=1) 


On construit d'autres méthodes des directions conjuguées en 
combinant de diverses façons la constante a et les vecteurs u, ,v, d’a- 
près les formules (4.32), mais nous nous en abstiendrons (en parlant 


H} = Hi — 


Hy = His — (4.54) 
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d'une méthode concrète, disons (4.48), nous entendrons dans la 
suite le procédé (4.47) où l’on construit la matrice FH, par la formule 
(4.48)). 

Faisons une remarque. Strictement parlant. il faut, dans chacune 
des méthodes susmentionnées, vérifier les conditions (4.30) pour les 
vecteurs ur, ur. On s'assure facilement que ces conditions ont lieu 
dans tous les cas. Aïnsi, on en a déjà parlé au n°2 pour uy = Uy = rp. 
Dans la méthode (4.48) v, — HŸ$e,. mais la définie positivité de H, 
entraîne (v,, ex) — (Hyer, ex) >> 0, ïi.e. les. conditions (4.30) sont 
vérifiées. En conformité avec les résultats du n° 3 les méthodes con- 
sidérées remplissent par conséquent la condition (4.18), i.e. on 
garantit leur non-dégénérescence. 

Construisons les formules pour le calcul direct des vecteurs p4 
définis par diverses matrices À/,. On y arrive sans peine à condition 
d’utiliser (4.45). 

Puisque r;,-1 — @Gx-1Pn-1, (4.45) entraîne 


| Pr = —Yn (Hofr — Brpr-1). (4.55) 
où 
_ (of; en-1) / 
Pr = (Ph-1 et) (4.56) 


Si v, — Her, alors 
(en-1. HR 1. f1) 
(Hn-ier-s eus) 


En vertu des égalités (4.38), (ex, H-1fx) = (en-1, Hofx). Ensuite, 
on a, comme le veulent (4.21) et (4.38), 


(ren, en) = (Hufnsss fr+s) + (if fi) = (Hofa+s, fr+t) — 


Ya = 1— 


EE (Pr, Îh)e 
Les égalités obtenues montrent que 
(Hofyr eh=1) _ 
Le Ti. fn) —(Ph-1. 81) | (99 


Notons qu'en vertu de (4.21) et (4.24) il résulte de (4.45) (sous la 
condition y; # 0) 


Ga Hof)) = 0, OLKj<LFk—1. (4.58) 
Compte tenu de ce fait, on a 
(Hofh; Ex 1) — (Hofns fn). (4.59) 


Portons les égalités (4.59) dans (4.57), il vient 


(Ph—1» fR-1) 


Re 60 
M of Pt een (4.60) 
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Notons de plus que 


Gus Pn) = (ne Pr) — (fn+1s Pr) = —(er, Pa). (4.61) 


En comparant les formules (4.56) et (4.60) et en tenant compte de 
(4.59) et (4.61) on établit aisément que y, = 1/(1 + B;). D'où y,B4 — 
— {1 — y,. Par conséquent, la formule (4.55), donnant le vecteur p, 
dans le cas où on construit la matrice A, à l’aide de v,_, — H}-_1e, à, 
peut se récrire comme 


Ph = —YnHofk + (1 — Yx) Pr (4.62) 


le coefficient y; étant défini soit par (4.57) soit par (4.60). Le vecteur 
pr admet également l'écriture suivante: 


| pu = —Hofi + Bn (Hofk + Pr). (4.63) 
ou 
ee : (Hofs. fi) 
Pl = (Hoi, 15)—(Pr-1. f5, 1)” 


D'autres expressions de B, sont également possibles si l’on recourt à 
(4.59), (4.61), (4.46); notons que la dernière formule peut s’écrire 


(fn: Pa) = (Br — 1) (Hofr: fx). (4.65) 
En employant diverses formules pour calculer les coefficients 
Yx, Ba dans (4.62), (4.63), nous aboutirons à autant de méthodes des 
directions conjuguées. Soulignons que dans la recherche du minimum 
de fonctions non quadratiques, diverses formules donnant p, déter- 
minent des vecteurs différents (pour ce qui est de leur grandeur et 
direction). 
La construction la plus simple de p, moyennant l'expression 
(4.45) est celle quand on forme la matrice H, à l’aide du vecteur 
Up = Fr. Alors ft, = 0, donc yx = 1, et (4.55) fournit 


Pr = —Hofn + BaPr-a (4.66) 


avec B4 trouvé d'après la formule (4.56). Si l'on utilise les égalités 
(4.59), (4.61) et (4.46), cette dernière s’écrivant dans le cas considéré 


les coefficients BP, se définissent par exemple par l’une des formules 
suivantes : 


(4.64} 


(of, en-1) (Hofys fr) (Hofss fx) , 
SE .6S 
Br (Ph-1° fn 1) (Ph-1, În_1) (Hofp 1, fr 1) (& S ) 
Les expressions (4.62), (4.63), (4.66) donnant le vecteur p, se 
mettent à leur tour sous la forme p, — —Hff;, la matrice H, dé- 


pendant de la forme des coefficients y», B:, BL. Ainsi, si le coefficient 
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Ba de (4.63) se calcule par la formule (4.64), la matrice correspondante 
Hofs (Hofg + Ph-1)* 
(Hof, fn) —(Ph=1 15-14) | 
Ici 4, — H, (du moment que fr — 0). Si dans (4.66) B; s'obtient 
par la première formule (4.68), le vecteur p, est défini par la matrice 
Hot. Ph 
(Ph=1» fn _1) 


H, = Ho — (4.69) 


HA, — H,+ (4.70) 


Si B4 de (4.66) est calculé moyennant la seconde formule (4.68), alors 


Hofy PP 1 
(Ph-1. În-1) ° 


Notons que dans (4.71) H,—H, (vu que f, = 0), et dans (4.70) 
Hh 5 Ho 

S'il en a le désir, le lecteur peut établir facilement d'autres for- 
mules donnant H};. 

La plus simple formule de calcul de vecteurs A-conjugués s'’ob- 
tient en choisissant dans (4.66) H, — 1. Alors 


Hy = Ho+ (4.71) 


Pr = —fh + PaPr-1 (4.72) 
avec BP, défini par exemple par l’une des formules suivantes: 
: URSS ROUE) 
Paule Cle) 


La méthode (4.47) où la construction de vecteurs conjugués s'ef- 
fectue selon (4.72), (4.73) est connue sous le nom de méthode du 
gradient conjugué (nom qui découle des conditions (4.58)). 


5. Minimisation d’une fonction quadratique convexe. Les métho- 
des des directions conjuguées ne se sont appliquées jusqu'à présent 
qu'à des fonctions quadratiques strictement convexes, i.e. la matrice 
A a été supposée strictement définie positive. 

Soit 


f (a) = + (42, 2) + (, +0 


une fonction convexe, i.e. À est définie positive: (Az, x) > 0 pour 
tout z = 0. Supposons que f (x) admet bien un minimum. 

Voyons comment jouent dans ce cas les méthodes des directions 
conjuguées. Stipulons d’abord certaines propriétés de la fonction 
f (x) 


1) Si (Ap, p) = 0, on a nécessairement 
Ap = (. (4.74) 
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En effet, sous l'hypothèse faite p est un point de minimum de la 
fonction convexe œ (x) =+ (Az, x). Or, le point de minimum doit 
vérifier une condition nécessaire d'extrémum 

p" (p) = Ap = 0. 
2) Si p est un point de minimum de la fonction convexe q (x) = 


(Az, x), on a nécessairement 
(b, p) = 0. (4.75) 


En effet, si (Ap, p) =0 et (b, p) >0, alors f (ap) = «& (b, p) + 
+ c— —oo pour «4 >—o, i.e. f (x) n'’admet pas de minimum: 
contradiction avec l'hypothèse ititiale. 

Le cas (b, p) < 0 se traite de façon analogue. 

3) La fonction f (x) possède plus d’un point de minimum. 

En effet, tout point de minimum de la fonction quadratique con- 
vexe f (x) doit être solution du système linéaire Az + b = 0 et vice 
versa parce que f” (x) — Az + b = 0 est une condition nécessaire 
et (vu l'existence d’un minimum de f (x)) suffisante d'extrémum de 
la fonction convexe / (x) (conséquence 1.3.2). Le rang de la matrice À 
étant inférieur au nombre d'inconnues (la condition (Az, x) >0 
signifie la singularité de À, voir (4.74)), le système Az + b —0 a 
plus d’une solution. 

4) Si(Ap, p) =0 etzE E" un point quelconque, on a nécessaire- 


ment 
(F (2), p) = 0. (4.76) 
En effet, en vertu des conditions (4.74) et (4.75) 


(f’ (z), p) = (Az + db, p) = (Ap, z) + (b, p) = 0. 


L'égalité (4.76) s’interprète comme suit. L'ensemble de solutions 
du problème de minimisation de q (x) forme un hyperplan de dimen- 
sion r—q, où gest le rang de À. (Cet hyperplan appartient à une sur- 
face de niveau de f (x) parce que si p est un point de minimum arbi- 


Fa 


traire de œ (x) = + (Az. x), alors, compte tenu de (4.75), 


f (p) = (AP, P)+(b, p)+c=c.) 


L'égalité (4.76) signifie donc que le gradient de f (x) en tout point 
est dans un sous-espace de dimension g orthogonal au plan 4p = (0. 
Il en résulte que le nombre de vecteurs f’ (x) linéairement indépen- 
dants est g<n (pour f(x) quadratique convexe). 

Forts de la connaissance des propriétés de f (x) étudions les mé- 
thodes des directions conjuguées pour le problème considéré. 

Supposons pour simplifier que H, = J et abordons la méthode 
(4.12). Désignons par £" le sous-espace d'éléments f” (x). On s'assure 
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facilement que le vecteur p, défini par la formule (4.72) appartient à 
ET. En effet, p, = —f, € ET et par suite, quel que soit #, p, est 
combinaison linéaire de vecteurs €E". En utilisant la méthode (4.72) 
la minimisation de la fonction (processus (4.47)) a donc lieu en fait 
dans ce sous-espace. Or, celui-ci vérifie la condition (4x, x) > 0 pour 
tout x 0. Etant donné la dimension finie de Æ*, cela signifie 
que, quel que soit € ET, on a 


mi x << (Az, 2) <M Ir, m>0, M < M. 


D'où la convexité stricte de f (x) sur le sous-espace considéré et, 
partant, la validité de toutes les propriétés des méthodes des direc- 
tions conjuguées que nous avons examinées aux numéros précédents. 
Ont toujours lieu, en particulier, les égalités (4.58) montrant l’indé- 
pendance linéaire des vecteurs fi, à — O0, 14, ..., k. Mais il existe 
dans £" q vecteurs linéairement indépendants au plus. Par suite, le 
processus de construction de vecteurs conjugués s’arrète pour un 
certain À < qg — 1. La méthode étant non dégénérée (propriété (4.18)), 
cela n’a lieu que lorsque f; = (0. 

Nos raisonnements nous autorisent à dire qu’en minimisant par 
la méthode (4.72) pour un certain kg — 1 on aura nécessairement 
fn = 0. Puisque les directions p, définies par différentes méthodes 
coincident (à un facteur scalaire près), tout ce que nous avons dit 
reste vrai pour les autres algorithmes étudiés dans le paragraphe 4. 
A force de compliquer un peu les développements, on montre qu'il 
en est également dans le cas où AH, est strictement définie positive 
quelconque. 

Ainsi, les méthodes des directions conjuguées permettent la recherche 
du point de minimum d'une fonction quadratique convexe, et cela en 
un nombre de pas inférieur à n. 

Supposons cette fois que f (x) convexe n’atteint pas son minimum ; 
il découle de la démonstration de l'égalité (4.75) que cela a lieu si 
un vecteur p quelconque réalisant le minimum de œ (x) — (Ax, x} 
satisfait à la condition (b, p) 0. 

Voyons les résultats de la construction de directions conjuguées 
dans ce cas. 

Donnons au préalable une propriété des vecteurs A-conjugués 
dont ceux-ci jouissent si f (x) est convexe (sans l’être strictement). 

Si À est définie positive, alors l'un au moins des vecteurs conjugués 
Pr, OLk LR — 1, vérifie la condition 


(Apz, Pr) = 0. (4.77) 
En effet, s’il y avait 
(4pi, pi) >0 (4.78) 


pour tous les i = 0,1,...,n — 1, le système p,. p1,..., ph _, serait 
linéairement indépendant. Supposons remplies les conditions (4.78) 
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n-1 

à ip: — 0, 

1= 
avec Ô, Æ 0 par exemple. En multipliant (scalairement) par Ap, 
les deux membres on a à gauche 6, (Ap,, po) 0: contradiction. Par 
conséquent, sous l'hypothèse de (4.78) vérifiée, les vecteurs {p;!7-1 
formeraient une base dans £”" et tout vecteur z se mettrait sous la 
forme 


2 = à d;P:; 
où l’un au moins des coefficients a; 0. On aurait alors 
(45, :) — (42 diPi; 2 pi) = à ai (Aps, pi) > 0 


Ce qui contredit la condition (Az, x) > 0 

Nous n'avons donc été dans le vrai en supposant les conditions 
(4.78) satisfaites. 

En vertu de la propriété examinée des vecteurs A-conjugués, 
dans toute méthode des directions conjuguées on a pour un certain 
k > 0 l'égalité (4.77). Comme la fonction considérée ne possède pas 
les | propriétés (4.79), (4.76), le paramètre «4 de (4.47) calculé par la 
formule (4.16) devient infini si (4.77) est satisfait, i.e. il est impos- 
sible de poursuivre la construction de directions conjuguées. 


6. Discussion des résultats. Ainsi, nous avons examiné un sché- 
ma général de construction des méthodes des directions conjuguées 
qui nous a fourni de nombreux algorithmes concrets. Toute méthode 
de la classe considérée permet de minimiser une fonction quadratique 
convexe en un nombre de pas de (4.47) égal au plus à n. Nous avons 
également constaté l'identité des approximations successives 2z,, 
Z1.. - . zx de la solution dans divers algorithmes. 

En appréciant ceux-ci du point de vue du volume de calcul par 
itération, c’est à (4.62), (4.63), (4.66) qu'on doit donner la préférence. 
Leur mise en œuvre est particulièrement simple si l’on prend pour 
matrice initiale A, la matrice unité Z, et l’on voit que ce choix est 
justement le plus rationnel dans la plupart des problèmes. 

Dans ce cas, le coût par itération des méthodes (4.63), (4.66) 
n'est que fort peu différent de celui de la méthode du gradient, mais, 
le processus (4.47) aboutissant au bout d’un nombre fini de pas, elles 
la dépassent de beaucoup sur le plan efficacité. 

L'avantage des procédés (4.62), (4.63) et (4.66) est.également un 
faible accroissement d'occupation de mémoire par rapport à la 
méthode de la plus grande pente. 
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Sous les aspects considérés, les méthodes des directions conjuguées 
dans lesquelles la direction de déplacement est définie après la cons- 
truction de la matrice (méthodes (4.48), (4.49), (4.52)-(4.54)) le 
cèdent un peu à (4.63), (4.66) tout en étant notablement supérieures 
aux méthodes du gradient. Toutes les méthodes de la classe considérée 
sont meilleures que celle de Newton du fait de se passer du calcul des 
dérivées secondes. 

Üne question peut se poser : vaut-il la peine de s'occuper de mé- 
thodes avec construction préalable de la matrice qui le cèdent aux 
techniques (4.63), (4.72) quant au coût par itération et à l’encombre- 
ment de mémoire ? Le lecteur est cependant prié de ne pas oublier que 
notre évaluation des méthodes est purement théorique et que nous 
ne tenons pas compte de ce facteur important qu'est la sensibilité 
des algorithmes aux erreurs de calcul. Or, si l’on en tenait compte, ik 
se pourrait que les coûts relatifs de divers algorithmes changent 
notablement. Il faut dire de plus que dans les méthodes (4.48), 
(4.49), (4.52) on trouve le minimum et on obtient simultanément la 
matrice inverse À 7}, ce qui peut s'avérer utile dans certains cas. 

C’est surtout en minimisant des fonctions non quadratiques qu'on 
se ressent de la différence de propriétés des algorithmes (voir para- 
graphe suivant). 

Les méthodes des directions conjuguées rendent un autre service : 
elles permettent d'établir si la matrice est définie à signe fixe. Ainsi, 
selon les résultats du n° 5, si À est définie positive et f (x) n’atteint 
pas Son minimum, on a &, — co à un pas. Et si 4 n'est pas définie 
positive, à un pas du processus (4.47) &x << 0. C’est doncla grandeur 
du paramètre &;, qui autorise à parler de la propriété en question de 
la matrice À. 

L'efficacité des méthodes des directions conjuguées est la raison 
de leur utilisation de plus en plus grande dans la recherche du mini- 
mum de fonctions quadratiques et la résolution des systèmes d'équa- 


tions linéaires. 


$ 5. Méthodes des directions conjuguées. 
Minimisation de fonctions quelconques 


{. Applicabilité des méthodes. Supposons que nous nous propo- 
sons de nous servir du processus 
Lnts = TR + ŒnPrs Pr = —Hifr k =0,1..... (5.1) 
avec px (ou H,) défini par l’une des méthodes du paragraphe précé- 
dent, pour minimiser f (x), une fonction convexe (non quadratique) 
quelconque. Les éléments de la matrice f” (x) varient alors selon les 
points de la suite (5.1) et en construisant les vecteurs ps, . .., Pr 
par n'importe quel procédé du n° 4 $ 4 on constate qu'ils ne vérifient 
plus les conditions (4.20), i.e. ils ne sont pas conjugués. Mais si le 
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point initial x, est choisi dans un voisinage suffisamment petit du 
point de minimum zx, d’une fonction convexe régulière f (x), en 
tout point de ce voisinage la matrice f” (x) est proche de f” (z.), i.e. 
la fonction de départ f (x) est bien approchée par la fonction quadra- 


tique 
p=sr (a) (az), 22) +f(2). 


On s’attend par suite à ce que les propriétés des vecteurs p,, . -., px 
définis par les méthodes du $ 4 soient proches de celles des vecteurs 
conjugués (f” (x,)-conjugués) et les propriétés du processus (5.1) où 
le paramètre &, est choisi à partir de la condition de minimum de 
f (x) dans la direction p, s’apparentent à celles des méthodes des 
directions conjuguées que nous avons étudiées. En d'autres termes, 
on est autorisé à supposer les méthodes du paragraphe précédent 
suffisamment puissantes lorsqu'il s'agira de minimiser des fonctions 
non quadratiques. Elles ne possèdent certes plus la propriété de 
fournir la solution au bout d’un nombre fini de pas parce que les 
conditions 


(f” (z,) Ph) Pi) = 0, i Z£ k, 


ne seront strictement vérifiées que pour un certain choix du point x. 

Comme par le passé nous appellerons méthodes des directions 
conjuguées des processus itératifs du type (5.1) dans lesquels le 
vecteur p, est construit par les algorithmes du $ 4 et la valeur du 
paramètre «; est choisie à partir de la condition 


f (Zn + GnPx) = mr (zx + GPn). 


Cette dernière condition peut également s'écrire 


(fat Pà) — (f (Zn Si CrPh); Px) = 0. (5.2) 


Le présent paragraphe se propose de justifier la convergence des 
méthodes des directions conjuguées lors de la minimisation de fonc- 
tions non quadratiques et d'évaluer sa vitesse. 


2. Théorème sur la convergence des méthodes. Nous supposerons 
dans la suite que f (x) est une fonction deux fois continûment déri- 
vable fortement convexe, i.e. on a 


m y <(f()y, y <MIylPF. m >0, (5.3) 


quels que soient x, y € E", et on choisit comme H, une matrice 
symétrique strictement définie positive 


Mo || Y  <(Hoy, y) Moy. mo >0, (5.4) 
pour tous les y € E”. 
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Les processus du type (5.1) ont lieu a vec ou sans reconstitution de 
H, au bout d'un nombre fini de pas. En parlant de processus avec 
reconstitution, disons en x pas, nous insinuons que, quel que soit 
ë = 0, 1,..., on reconstitue H.,, ie. H:, = H. 

Il faut dire de suite que s'agissant de processus avec reconstitu- 
tion de FH, après un nombre fini de pas, toute méthode des directions 
conjuguées vérifie la condition 


Lim || f' (#3) 11 0 (5.5) 


puisque chaque pas immédiatement consécutif à la reconstitution 
est un pas du gradient qui vérifie, en vertu de (5.3), les conditions de 
convergence des méthodes du gradient (théorème 1.6), et aux pas 
suivants on descend jusqu’au minimum de la fonction dans la direc- 
tion de déplacement. La condition (5.5) pour une fonction stricte- 
ment convexe signifie que foute méthode du $ 4 avec reconstitution de H, 
en un nombre fini de pas converge vers la solution x. Il importe donc, 
lorsqu'il s'agit de se prononcer sur l'efficacité de processus avec 
reconstitution, d'évaluer leur vitesse de convergence. 

Notons que dans le cas de tels processus la condition (5.5) est 
remplie non seulement pour des fonctions strictement convexes, mais 
aussi pour toute fonction telle que cette condition soit garantie dans 
les méthodes du gradient (voir théorème 1.4). 

S'il n'y a pas reconstitution de },, on doit légitimer la conver- 
gence et, comme pour des processus avec reconstitution, évaluer sa 
vitesse. 

Le théorème ci-dessus représente le résultat principal du présent 
paragraphe. 


THEOREME 5.1. Etant donné une fonction f (x) vérifiant (5.3) 
qu'on minimise par le processus (5.1) avec H}, construite moyennant l'une 
des méthodes du $ 4 ((4.48)-(4.49), (4.52)-(4.54), (4.69)-(4.71)), La recons- 
titution de H, ayant lieu en n pas, si la valeur de a, est choisie à partir 
de la condition de minimum dans la direction p,, la convergence de la 
suile {r:,} vers la solution est superlinéaire quel que soit le point 
initial Xo. 

Donnons les grandes lignes de la démonstration. Supposons fausse 
l'affirmation du théorème, i.e. les processus itératifs décrits remplis- 
sent pour tout À la condition 


rt — Ze ZA rs — 7 || (5.6) 
où À >0 est une constante. En utilisant les inégalités (1.12) et 
IF@I=NT @) —-fGOI<M x — 2, ||, (5.7) 


valables pour une fonction vérifiant (5.3), on se convainc de l’équi- 


valence de (5.6) et de 
| fu+a 1 > Ô 1 fe H, (9.8) 
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avec Ô > 0 une constante. Sous l'hypothèse d'avoir (5.8) nous établis- 
sons que pour le processus (5.1) on a, quel que soit l'algorithme de 
construction de H,, les estimations 


Care PK AN N fa (5.9) 
avec C. N des constantes indépendantes de #, € > 0, et 


(einttr lEn+s) = 0 (lens | I ren+s N), ÉT£ j, OK, jKn—1. (5.10) 


Nous montrons ensuite qu'en présence de ces estimations la 
convergence de la suite (5.1) vers la solution est superlincaire. Mais 
cela contredit l'hypothèse de départ (5.6) (ou (5.8)), i.e. le processus 
(5.1) ne peut pas satisfaire à la condition (5.6). L’affirmation du 
théorème s’en déduit facilement. 

Le schéma de démonstration est donc le même pour toutes les 
méthodes étudiées. N'est différente que la manière dont on établit 
les estimations (5.9) et (5.10). Au numéro suivant nous prouverons 
celles-ci pour divers algorithmes en nous bornant pour le moment à 
exposer la démonstration commune à toutes les méthodes. 

Faisons d’abord une remarque à propos des notations. Lorsque 
nous travaillerons avec les vecteurs et les paramètres 


La 
Tin+is fan+i. Crntis Œin+is Pen 


L=0, 1,551, 


nous omettrons souvent, pour alléger l'écriture, l'indice En, i.e. 
nous aurons affaire avec r;, fi, e, &;, Bi, et ainsi de suite. Soulignons 
que nous ne le faisons que pour simplifier l'écriture et qu’en fait 
les vecteurs correspondants restent indicés par En + à. 
Démontrons donc notre théorème en supposant vérifiées (5.9) et 
(5.10). Moyennant la formule de Lagrange généralisée nous obtenons 


(ex, rs) = ira F5) = Gina, rj) + (ie — fi) ri, r'j). (9.11) 


L'indice ic désigne comme toujours un point intermédiaire du seg- 
ment correspondant : 


Lie = ZT; + Or; 0<6< 1. 
Si [Ir; [| — 0, vu la continuité uniforme des dérivées secondes de 
f (x) sur l’ensemble S = {x: f (x) < f (xo)}, on a [| fi — fi —+ 0 
et (5.11) entraîne les estimations 
Giri, rj) = 0 (ri Mrs 1) + o (Me: Nr; I), 
iÆ j, 0 < i, j<n—î1, 
lorsque (5.10) a lieu. Dans les conditions (5.3) || e; || —1| fix: — fi & 


< M |lr; ||, par suite |le, || et || r; || sont du même ordre infinitési- 
mal. Compte tenu de ce fait, 


(ira, ry)=0 (ral Hrjll), is 7, 0 Ki, jLKn—1. (5.12 
71—01608 
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Si l'on a (5.12), il existe des vecteurs 


n=mnmtor i=0,1,...,nr—1, (5.13) 
avec |[[w, || —o(||r;ll), tels que 
(énru r)=0, ii, 0Ki, j<&n—1. (5.14) 


Pour le montrer procédons comme suit. Normons les vecteurs r,: 
up ri 
I = . 
(énrs, ri) /2 


Alors (fEnris r;) = 1et on a pour £ —+ , en vertu de la convergence 
du processus (5.1) (avec reconstitution de F;,) et des conditions (5.3) 
et (5.12): 
se 1 " ” 
(fEnTi #9 ES m || ri | Il r;ll [ira r'j) Es (Pen —fi)rs r'j)] — 0, 
ii, 0Li, j&n—1. 
Si À en eSt donc une matrice ayant pour colonnes les vecteurs Tr; et 
Fin = RinfinkR sn, alors, quand & —+ co, 
Fin — Î. 

Comme FRE fEnRn — Î], on obtient 

Qinlinlin = 1 (5.15) 
en notant FEiRt, = Q?,. Mais, étant donné F:, —+ 1, on a égale- 


ment Fer —> 1 et donc Rin — Qin i.e. les vecteurs-colonnes g, de 
la matrice Q:, s'écrivent 


nm=n+on i=0,1,...,n—1, 


où || ©, || —> 0 pour Ë tendant vers l'infini. Mettons les égalités ob- 
tenues sous la forme 


(enr ri) q = Tr; + (Jenr is r;)"® &;. 


En vertu de (5.15) les vecteurs r, et r; = (fear, ri)? qi, à = 0,1,... 
..., nr — À, vérifient les conditions (5.14). D'autre part, r; satisfont 
aux conditions (5.13) puisqu'on a, vu (5.3), 


Uri rs ll ee Nrill 
Nous avons donc établi la validité de (5.14). 


Pour E suffisamment grands, les vecteurs r, sont linéairement in- 
dépendants. En effet, supposons l’existence de facteurs 6,, à — 
= 0, 1,..., nr — 1, dont deux au moins sont non nuls et tels que 


[los || — 0. 
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n—1 
2 Gi = 0. Si 6, 0, on a alors 


Ôo (Enr os ro) +2 Ô; (fEnro rj) = 0. 


Cette égalité n’a cependant pas lieu pour des E suffisamment impor- 
tants. En effet, vu que [|w; || = o(llr; |) et [Ir; || — 0 quand 
E— oo, on a, compte tenu de (5.3), pour £ suffisamment grands 


(fEnro ro) — (fenTos To) + (fEnro; ©o) 7 0, 


alors que (fixro, rs) = 0, j = 1, ..., n — 1, en vertu de (5.14). 
Nous avons abouti à une contradiction, ce qui prouve l'indépendance 
linéaire des vecteurs r,, à = 0, 1,..., nr — 1. 


Soit z;, un point de minimum de la fonction quadratique 


Q (2) = (fEns T— Ten) +3 (En (Z— Tin), 2 — Zn). 


Ecrivons le vecteur zn — z:n comme 
Le 
Zin — Lin = à art. (5.16) 
1= 


Comme @'(zn) = fEn + Jen (Zën — Zen) = 0, on a, en utilisant (5.16), 
n— 1 
> Gif ini = — fin: 
i=0 
d’où, compte tenu de (5.14), la formule suivante pour calculer a;: 
= (En, ri) 
(fEnrs, ri) | 


Mettons le numérateur sous la forme 


a; = i—=0,1,...,n—1. 


î 


Pén n) = ft h fin tin rose — 2 (sr) 


(on prend en considération que (fi:1, r;) — 0 en vertu de (5.2)). 
D'où, compte tenu des estimations (5.10), 


1-1 


(en ri) = —(e;, ri) + À o(lkri ll Iles 1). (5.17) 


Etant donné les conditions (5.8) et (5.9), tous les vecteursr,,...,r1 1 
sont du même ordre infinitésimal (rappelons qu'il s’agit en fait des 
vecteurs rgn+i). Vu que |le; | SM [lr,; [| (voir p. 97), c'est égale- 
ment celui des vecteurs e,, ...,e,_.. Les égalités (5.17) admettent 
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maintenant l'écriture suivante: 
(Jens ri) — —(e;, ri) + 0 (II Ti IF), L — 0, 1, sos 1 — 1. 
Compte tenu de (5.13), on établit ensuite 
(Enr, Ta) = (fnris Ta) + (nOis ri) = (iris Ti) + (En — fie) lis Ti) + 
+ (fn, ri) = (ei, ri) + où (I ra |). 
Donc 
__ (ei ri+o(lr: 1) 


He roi (lei lle) 
En vertu de (5.3) 


(Gi, r)=(firi ri) >mlirilf, i=0,1,...,n—1,. (5.18) 
Par suite, on a, quand E —+ o (i. e. pour || r, || —+ O0), 
ad, i—=0,1,...,nr—1. (5.19) 


_1 
. ee 
Puisque Zesgin — Zn = D) ri, ON a 
SD 
n—1 


= = 
Ttyin — Zin — (CAENT n — Tin) — (Zn = Lin) = à (ri — air;). 


D'où, compte tenu de (5.13) et (5.19), 


Iran —Znll= 2 0 (1 ri), 
ou, vu (5.8) et (5.9), 
Il Ze &tin — ZEn Î| = o (|| Jen DE (5.20) 
Comme Z;n — Tin — —(fen)" fên, On a, compte tenu de (5.20), 
Liétion — Tin — (ZŒ+nn — Zn) + (2 En — Zn) — — (En) fn + 1 En» 
Où ||nNzn || = 0 (|| fin 1). Il en résulte l'existence d’une suite de 
matrices DE! —+(f:)"" telles que 
TŒthn —Tn = — En/En (5.21) 


(on peut poser par exemple 
D:} — (RE 0 


RE PRSR RLÉR à On 
ten Vin)? ). 


L'égalité (5.21) révèle la convergence superlinéaire de la suite 
{Zen}, ë = 0,1,...; l'estimation correspondante s'obtient de même 
que dans le théorème 3.1 pour la suite {r,}. 

Sous l’hypothèse d’avoir (5.6) et les estimations (5.9), (5.10), 
nous avons donc démontré qu’on a pour {z:,} 


Il Tattpn — Le Il < ln Il Tin — dd |, (5.22) 
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où À sn tend vers zéro pour Ë —+ co. Mais si l’on a la condition (5.6), 
l'inégalité (5.22) n’a pas lieu parce que, avec (5.6), 

Te+on — Le > AN Zen — 2e fl. (5.27 

La contradiction ainsi obtenue signifie que la condition (5.6) (ou 

(5.23)) ne saurait être satisfaite pour le processus (5.1). Le fait que 


(5.6) n'est pas satisfaite pour tout À veut dire en fait que dans le 
processus (5.1) (avec reconstitution) l'inégalité (5.23) n'a pas lieu 


non plus pour une suite partielle {E,}, m = 0, 1,... S'il existait 
une suite {E,,} telle que 
 Tiim+t)n — Le ZA || Zévn — Ze |[, (5.24) 


on aurait alors dans les méthodes avec reconstitution les estimations 
(5.9), (5.10) pour tout En <k < (Eh + 1) n (nous nous en con- 
vaincrons au numéro suivant lorsque nous étudierons les propriétés 
de tels processus). C’est pourquoi nous constaterions en répétant les 
mêmes raisonnements qu'aux itérations correspondant à la suite 
{E,} on a l'inégalité (5.22), ce qui contredit (5.24). 

Ainsi, dans le cas du processus (5.1) avec reconstitution de la 
matrice A, l'inégalité (5.24) ne peut avoir lieu. Il en découle l'exis- 
tence, pour toute constante à >> 0, d’un nombre T tel que, lorsque 
£ > T, la condition (5.22) se trouve satisfaite, i.e. il y a convergence 
superlinéaire de la suite {x:,}. 


3. Etude des propriétés de divers algorithmes. Démontrons les 
estimations (5.9), (5.10) pour diverses méthodes des directions con- 
juguées avec reconstitution de la matrice F, après r pas en supposant 
que l'inégalité (5.6) (ou (5.8)) est vérifiée. 

Quelle que soit la méthode, on doit raisonner par récurrence : 
on démontre ces estimations pour i # j, i, j — 0, 1; puis, en les 
supposant justes pour 0 < i,j < T< nr — 1, on prouve leur validité 
dans le cas0<i,j<Tt+t. 


4. MeTuone (4.48). Si la matrice (4.48) se trouve reconstituée au 
bout d'un nombre fini de pas, la matrice H, est bornée pour tout k: 


I HiIISL, L< oo. (5.25) 
Démontrons notre affirmation. En vertu de (5.2), 


(Hafn, fs) = —(Pu, fat) = 0, 


(Hier, ex) = (Haufns fr) + (Hnfntas fra). (5.26) 


La matrice H, étant définie positive ($ 4), on a (H,e,, e,) > 
> —(Phs fn) — (Pr, ex), d'où, compte tenu de (5.18), 


(Her, ex) ra re 12 (9.27) 


donc 
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En se rappelant de plus que |le: || < M || rx ||, on obtient de (4.48) 
ILrR le cn AIMENT NE 
Il Hh+: IÉSIE Il + m || nET m || TR TE 


Compte tenu de la condition (5.4), on s’assure sans peine que 
Gin S & L ©, et l'inégalité de récurrence pour || H,+, || entraîne 
donc l'estimation (5.25) pour H:,+,. On s’en Linspirera pour démon- 


trer par récurrence les inégalités &:n+4 < æ< o pour tout i — 
, 1 — 1. C'est justement en s'appuyant là-dessus qu’on 


LC 
établit (5.25). 
Démontrons maintenant que pour i = 4 on a les relations 
(ras €o) = 0, (es, ro) = 0 (ro I ra ll, 
GA <IAN<M AMI (5.28) 


où les constantes N 1 C1 Sont indépendantes de k et C, >> 0. Les pre- 
mières estimations (5.28) s’établissent comme suit: 


(ris €o) = —d1 (Hifi, €) = —@] (fs He;). 


Mais H,e5 = ro, donc (r1, eo) = —@ (f;, ro) = 0. Ensuite 
(e:; ro) _— (fier ro) — (Fa focr 0) (ra (ie — fo) To) = 
= (nr, 80) + 0 (ra ro 1) = 0 (ra I I ro 1): 


Prouvons les estimations pour || r, |. Compte tenu de (5.2) et (5.26), 
il résulte de (4.48) 


if #5) = (Hofs sf) = GE © (Hof, fi) 


1 
À (Hofi, fa) | 
(ofo: fo) 
En utilisant (1.14), (1.15) et (5.7) on constate aisément qu'on a 
pour une fonction vérifiant (5.3) 


m1+) LIT PSE (1. (5.29) 


Vu les estimations (5.4) et (5.29), on a sur l’ensemble S, — 
= {z: f(x) < f (to)}: 

(Hofi, fs) Mol fi 1 fe) Si Re) 5 

(Hofos fe) = moll/6 | < d2(fo—fe) © 


avec d,, d, des constantes indépendantes de E. Nes suite, 


LU C4 H + : LA 
Cafe, 1) > ER > as | fil, (5.30) 
1+—2 


d 
OÙ 4j = mo/ (1 ++) ne dépend pas de EË. 
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Recourons aux inégalités (5.30) pour évaluer la valeur du para- 
mètre &Œrn+1- Comme 


2 
fe—fa= (fi, Pa) + (fiePss P1) 
et &, est choisi à partir de la condition (5.2), il est clair que 


_ (fi, P1) LA — (f Pi) 


M||P1lË m || P1 ll2° 
Mais en vertu de (5.30) —(f;, p,) = (4,f,, f) = mllf,lP et, vu 
(5.25), ml = | Hifi 1 < . Il f Il; il se trouve, compte tenu de 


ces estimations, que & > — > HE — à > 0. Par ailleurs, il découle de 
(5.30) || p, I > & |1 f; Il. On s’en sert et l'on établit sans difficulté 
que um < = a << co. On a donc 

ai 


MIA =aLNAN> line lAAl>en fl = CAN, 


où les constantes W,, C, sont indépendantes de E, i.e. on a prouve 
des estimations (5.28). 
Supposons qu'on a 


(ri, e) = o(Nrilir; 1), ii, 0<Ki, j LT<n—1, (5.81) 
CAN <NrN<MNAI OLi<T, (5.32) 


avec WV;, C; > 0 des constantes indépendantes de £. Montrons que 
des estimations analogues ont lieu pour 0 < i, j < 7 + 1: 


(fr+1s r)) — (Pia r'j) + (ets + .…. + Ets r'j), (4 < ] < T. (5.33) 


Etant donné la condition (5.8) et les estimations (5.32), les quantités 
[fre I 1 fa Il et I] r; || sont du même ordre infinitésimal pour tous 

s 0O<i<Tt. Cela permet d'établir moyennant (5.2), (5.31) et 
(5.33) 


(fra y) = 0 (| full rsD=0(r; 1), OK j <T. 
Comme (f::1. r-.) — 0 selon (5.2), on a finalement 
Gita ry) = 0 (rs), 0 Li <rT. (5.34) 
Evaluons (H,41. fi+1, fx+1). Utilisons la formule (4.48) et prenons en 
considération (5.26), il vient, quel que soit 0<j<T, 


; ; (rjs frs 1) (Hje;, f:,1)? 
(H jsfruss frs) — : (A frs fx+1) + —— 
> [CH frs fers) (Hi jfiass 1541) + 
+ (A ifress fers) (A5, 15) — (Hifi ess fees) — (Hifi, fes)? + 
+ 2(H fit fees) (Hifi, fr+s)]. 
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La différence du premier et du troisième terme du numérateur dans 
le second membre de l'inégalité obtenue est non négative conformé- 
ment à l'inégalité de Cauchy-Bouniakovski. Vu les estimations 
(5.34), (5.27), (5.25) et le caractère borné de &;, j < Tt, on s’assure 
facilement que le rapport de deux derniers termes du numérateur 
au dénominateur est une quantité de l'ordre de o(||r; || [| frs 1) — 
= 0 (|| f+1 I). Par suite 


(Hje;. ej) 


(Hjsifesis fre+1) 2 — 0 (|| fr+: I). 


Les estimations (5.32) signifient qu il existe des constantes a; 


indépendantes de Ë telles que (H;f;, f;) — me) f) > a;|lf; IP. 
Compte tenu de la dernière relation et de (5. 
, , aj\ fi |? ; ; DATE 
(H jsifr+1, Re) >TCTE (Hjfr+1. fr+1) —0(|| fx+1 > 
>a;(H fes, fr41) — 0 (|| 41 1P), (5.35) 


avec a; > 0 indépendant de E (en vertu de (5.32)). 

Nous avons indiqué au numéro précédent que || f; || 0 pour 
k —+ oo dans les processus avec reconstitution de ,. En se rappelant 
la définie positivité de F, les inégalités (5.35) entraînent que si, quel 
que soit E, on a (Hjfr+1, fr+1) >; ll fr+1 [P avec y; > 0 indépendant 
de E, on peut alors trouver une constante Y;,,>>0 telle que 
(H juifies. fr+1) 274 Uf+11À pour tout E. Or, (Hofis1, fr41) > 
> Mo || fx+1 |f , Ce qui permet d'affirmer en évaluant (Hifi, fre) 
qu'il existe une constante y; telle que (Hifrs1, fr+1) > Y1 || fr+1 |? 
pour n'importe quel £. Si l’on en tient compte, on peut dire que 
nos raisonnements par récurrence ci-dessus montrent l'existence 
d’une constante «a+, indépendante de Ë telle que (H,41, fr41, fr+1) > 
> @:#1|| fr+1 |?. On établit de même que 


(rue Pr+1) (CAPE Pr+1) L 


At+! APRES A 
MIE ST Male SMS np ma 
On a donc 
Nota fers 2 M rats = Gran M Hotafita 2 Crea M fa I. 
(5.36) 
Montrons maintenant que 
H tes = T5 +, 0<j<7T, (5.37) 
où [[n; | = o (Ir; |). 
Multiplions terme à terme (4.48) par e;, il vient 
Houe;= He;+ Ta (Tr €j) _ (He,. ej) Hses (5.38) 


(rss €) (Hses. C3) 
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Sous l'hypothèse d’avoir, pour un certain s, j+1<s<T, les 
égalités He, = r; + n;, où ||n;il = o (|| r; ||), on s'assure, moyen- 
nant les estimations (5.31). (5.27), (5.25) et vu que tous les ||r, || 
sont d'un même ordre infinitésimal, qu'en vertu de (5.38) A..,e; — 
= Fr; + n,, où fn; ll = 0o(|lr; il). Mais H;,,e; — r;, et on établit 
donc par récurrence la validité des égalités (5.37). 

Compte tenu de (5.37), 


(rotas 65) = —Qrts (Hotafetas €) = —Qots (ras 5 + Ni), 
par suite, on a, en vertu de (5.34), 
(Titus €) = 0 (Nr; I) + 0 (| fre Nr; I, 0<j< 7. 


Les inégalités (5.8) et (5.36) montrent que || r.+, || est du même. 
ordre infinitésimal que || fr+, || et donc que [r; ||, 0 < j < +. D'où 
(etais €5) = 0 (1 reta rs M) = 0 (ren PF) 0 Kj KT. (5.39) 
Cela permet d'obtenir, comme on l'a fait pour i = 1, 
(Ex+1 r'j) —+ 0 (| Tr+i IF), 0 < j < T. (5.40) 
Les relations (5.36), (5.39), (5.40) attestent la validité des estima- 
tions (5.31) et (5.32) pour t + 1 et, par là même, celle des (5.9), 
(5.10) pour la méthode (4.48) sous l'hypothèse de (5.1) ayant lieu 
avec reconstitution de la matrice 7, après un nombre fini de pas. 
Nos raisonnements se reproduisent intégralement pour le cas où 
l’on a non pas la condition (5.6) (ou (5.23)), mais l’inégalité (5.24) 
(ou l'inégalité correspondante || fm+1m || Z 8" || fe n 1) et où on 
ne considère que les itérations correspondant à la sous-suite {E,, }. 
Les estimations (5.9), (5.10) restent entières pour ces itérations. 
Il en résulte (on l’a montré au numéro précédent) la convergence. 
superlinéaire de la méthode étudée. 


2. MerTuove (4.49). En reconstituant la matrice F7, après un nombre. 
fini de pas, cette matrice est bornée pour tout k. Cela découle de 
l'inégalité 


I re I IH | MA Nora 
| Hat SIA | + m | rh 2 7 min 


Pour i = 1 

(Ah, fi) = (Hofi, fi) ZM | fi lP. 
Si nous tenons compte de ces relations, à force de raisonner comme: 
pour la méthode (4.48), nous établissons les estimations (5.28), puis, 
en supposant justes (5.31) et (5.32), les estimations (5.34). 


Ensuite, 
T 


(Hsifesss fees) = (Hôfesss feet) + D 


im0 


(fous ro (ri Hie:, fe,4) 


(ris ei) 
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D'où, H, étant bornée et compte tenu de (5.18), (5.34) et du fait 


que toutes les quantités || r; ||, [les Il, || +1 || sont d’un même ordre 
infinitésimal, 


(Hipafens feu) 2 Mo || fra N° + 0 (I fera NP). 


Par conséquent, pour || fr:, || FAR Ent faibles (i.e. pour E 
suffisamment grands), on a 


(HT ifrt fr+1) > Gxta || fer If, 


où &:41 > 0 est indépendant de E. Par suite « >a@.11 > >0 


et Con 1 fera US rota M Nota [et 
Utilisons les y égalités 


Hsrie; = He; + +(rs— Hits) + Cas 2) i+Ii<sS<LT, 


ne) 


tenons compte des estimations ne (5.18) et de la nature bornée 
de H,. En raisonnant comme nous l’avons fait pour la méthode 
(4.48), nous nous assurons que la matrice H,,, satisfait aux équa- 
tions (5.37), ce qui fait qu'on a toujours les estimations (5.39) et 
(5.40). 

La méthode (4.52) se traite de façon analogue. 


REMARQUE. S'il y a p;, — —Hff; — Ô à une itération du stade 
initial, on a à recommencer le processus en reconstituant la matrice },. 


3. M£Tope (4.53). En démontrant les résultats relatifs à la 
matrice H,, on suit la même voie que pour la méthode (4.49). Notons 
que la matrice H,+, vérifie non plus les conditions (5.37) mais les 
équations 

Hene = nn 0LiLT 


où ||n;ll—o({llr; il), ce qui simplifie d’ailleurs l'obtention de 
(5.39). 


On procède de même pour la méthode (4.54). 


&. MÉTHODE (4.69). La matrice H, (4.69) définit le vecteur p, 


{4.63) avec B, calculé par la formule (4.64). 
Pour cette méthode 


MG a + MoN fx UN rs MN 
mo || fx W? ° 


IFR —+ L 


Il << Mo + 


En vertu de (5.8), on a, pourtoutk, < L — dy, où d, est indé- 


pendant de Ë. Quel que soit 4, on a par suite || H4 || < L pour un 
processus avec reconstitution. 
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Montrons que, # étant quelconque, on a B, < B << 1, i.e. 


1—-B>1-B=8>0, (5.41) 
où B ne dépend par de E. 
Vu (4.65), 
p (Hofp, fa) 1 


(Hofes fe) +4 Ba) Hofess fe) (Hofs_s fe) 


1+(1—B2-1) Hi. 1D 


En vertu de (5.4) et (5.8) et quel que soit k 


(Hofs_y fx) _ Molf, À 
(Hofs, fR) * mol fil 
avec y indépendant de E. 
En utilisant (4.65) et (4.64) on établit facilement par récurrence 
que 0 << By << 1 pour tout #. Donc 


1 
14 (1— Pa) v 


A que B zn 0,1,...,onentire la validité de (5.41). Comp- 
te tenu Le (5. a l'égalité (4. 65) entraîne pour tout 


— (pr, fr) > Bmo ll fr 1, 
Il Pr 1 > mo || fa Il. 


On tient compte de ces inégalités et du caractère borné de H, 
pour établir, comme pour les méthodes considérées plus haut, que 
0<a<a <aet CH NI< [re NI I. 

Les estimations (5.9) se trouvent donc démontrées. 

Faisons la même chose en ce qui concerne (5.10). Pour #4 — En + 1 


ZY<oo, 


BR < 


1.e. 


, H 1 l 
(Pis eo) = —(Hofi, 6n) + [(Hofi ; €o) + (Po; €0)]. 


Mais (AH, f,, eo) = (Hofi, f;) et, conformément à (4.61), (Pos €0) = 
= —(py, f), ce qui entraîne (Pa, eo) = 0. 

Si les estimations (5.31) sont justes, (5.34) se démontrent comme 
dans la méthode (4.48). 

Moyennant (4.63), on établit 


(P++1 ej) — (Ba - 1) (Hofx+1 ej) + Pa (P+, ej)- 
Evaluons (Æifr41, ey). Il dar de (4.63) 


Hifi = a 2 —$;p;1) (5.42) 
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et on a donc 


{ — | = 
He; = = (Pj+1 —Bj+105) — =— (D; —B;p;-1). 
B B;—1 


j+1 —1 


Utilisons cette expression et les estimations (5.34), (5.41), il vient 
(fitas Hoe;) = 0 (| Pr+a 17) = 0 (NM rz+1 7), O0 Kj<T. 


Puisque c’est également la valeur de (p., e;) pour 0 <j<T (en 
vertu de (5.31)), il se trouve que 


(Prtss €j) = 0 (I rr+a 7), 0 Lj<T. 
Quand j = 7, 
(Prtis 6x) = (Beti — 1) (Hofitas 6x) + Beta (Pr Ex), 
d’où, compte tenu de (4.64) et (4.61) 
Hof:. f)U. f' 
(Pr+1: Ex) — 
Par suite de (Hfx+,, fx+1) > 0, on a 
(Prtar 6x) < (Hofr+rs fr). 


Si on utilise, pour évaluer (A fx41, fx), l'expression (5.42), j — +, 
on a alors, compte tenu de (5.34) et (5.41), 


(Hofitis fr) = 0 (I rr+1 I) 
(le fait qu’en vertu de (5.9) toutes les quantités || r; [| et || fi ||, ê — 


— 0,1,..., nr — 1, sont d'un même ordre infinitésimal y est déjà 
pris en considération). 
Ainsi, 


(P++1 ej) — :0 (|| Vita IF), 0 < j < T, 


i.e. dans la méthode considérée les estimations (5.39) restent en 
vigueur. [1 en est donc également des (5.40). 

Ainsi nous avons établi les estimations (5.9), (5.10) pour (4.69) 
sous l'hypothèse d'avoir la condition (5.6). 


5. M£rnoDE (4.71). En vertu de (4.67) et (5.4), 


— (ps, fx) > mo | fr NP. (5.43) 
Vu cette inégalité 
MHZ, MAS NN 
IELE SI] Ho Il + mA — 


Le rapport ||f4 |[/I| f:-1 || étant borné sur l’ensemble S, quel que 
soit k et | H, | < Mo, on a 


Il H, Il < Mo + d [| Hy- Il, 


$°] DIRECTIONS CONJUGUÉES. FONCTIONS QUELCONQUES 109 


où d'est une constante. Il s'ensuit qu’en reconstituant la matrice 
en un nombre fini de pas, 77, reste bornée pour tout k£: || 7, || & L. 
Etant donné l'estimation (5.43) on s'assure par suite que &« > «, > 
>za>0e NI > [ra | > Cf: avec un # quelconque. 
Les estimations (5.9) sont donc justes pour la méthode (4.71). 
Prouvons qu'il en est de même pour (5.10): 
(Hofpusr rss) 


(Ph fs) (Pr. en). 


(Pts en) = —(Hofh+ss ex) — 


D'où, compte tenu de (4.61), 


(Phrase en) = —(Hofhus en) + (Hofnsris fer) = (Hofnsss fu. (5.44) 
Pour k — En, (5.44) entraîne 


(Pas €o) = (Hoi, fo) = is Po) = 0. 
Utilisons (4.66), il vient les expressions suivantes : 


(Pets €7) = —(Hofrss, €j) H Br+i (Pr: 6j), 
Hofj = — p;+B;P;-1 
Hot; = — Pj+1 + P5—B4ips + Bip; 
En supposant justes les estimations (5.31), on démontre comme dans 
la méthode (4.48) les estimations (5.34). Notons également que le 
coefficient 
ne — (Hofn+ fn) Mol 3 d 
RO (pas) molle © & 


Etant donné cette expression de $, et en raisonnant comme pour 
(4.69), on établit 


(Prtas €5) = 0 (| reta IF), OLKj<T, 
et, de plus, 


(Hofes feta) = 0 (I rr4a I), 
ce qui fait que (5.44) implique 
(Prtas €x) = 0 (I rexa I). 
Ainsi, 
(Pets €5) = 0 (re: IF), OKj<KT, 


d'où les estimations (5.39). La validité des (5.40) se démontre comme 
pour (4.48). Pour la méthode considérée on a donc toujours les esti- 
mations (5.10). 

En étudiant la méthode (4.48) nous avons noté qu’il était pos- 
sible de démontrer les estimations (5.9), (5.10) en supposant remplie 
la condition (5.24) — à cette fin on ne répète les raisonnements faits 
que pour les itérations correspondantes. Cette remarque reste vraie 
pour les autres méthodes étudiées, ce qui atteste leur convergence 
superlinéaire. 
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4. Etude de la vitesse de convergence. 

1. Supposons que la matrice f” (x) vérifie, en plus des conditions 
(5.3), la condition de Lipschitz (2.8). La vitesse de convergence de la 
suite {zin} se prête alors à une évaluation plus précise. 

Dans le souci de faciliter les références nous écrirons différentes 
relations valables sous la condition (5.3) (nombre d'entre elles nous 
ont déjà servi à plusieurs reprises): 


mllz—z II GUI<M zx; (5.45) 
dif) —f())< 1 (@) IP < dt () —/(&)1 (5.46) 


(les constantes d,, d, sont indépendantes du choix du point x); 


m ra Ie IS AZ [re (5.47) 
Soient x, y deux points quelconques et 
Î (y) <f (à). (5.48) 
On établit alors, compte tenu de (5.46), que 
FAURE IFR CRE (5.49) 


C désigne ici (et partout dans ce Fo des constantes (non nulles) 
indépendantes du choix des points x, y € ET. 
On a sous (5.48), en vertu de (5. 45) di (5.49), 


y —z I<CNz- x I: (5.50) 


2. Supposons que les processus itératifs étudiés vérifient l’esti- 
mation 


Il fn+t I fret SA ns  OSi<ji<r—1. (5.51) 


À: désignera désormais diverses variables tendant vers zéro quand 
E — co. 

Dans la suite nous nous bornerons à étudier les propriétés de la 
méthode (4.48). Les résultats obtenus (lemme 5.1, théorème 5.2) 
seront cependant valables pour d’autres algorithmes de directions 
conjuguées. 


LEMME 5.1. Si une fonction deux fois continüment dérivable f (x) 
satisfaisant aux conditions (5.3) et (2.8) est minimisée par le processus 
(5.1) où la matrice H, est construite par la formule (4.48) et si les inéga- 
lités (5.51) ont lieu, on a alors les estimations (5.9) et 


[rent Egn+) CT rene || rentes ||, (5.52) 
t=—min{i,j}, ii, 0<i, j<n—1. 
La démonstration est analogue à celle des estimations (5.9) 
et (5.10) pour la méthode (ä. 48) (n° 3); seul l’ordre infinitésimal de 


certaines quantités est précisé. On se passe donc de la démonstra- 
tion même pour ne s’attarder que sur les modifications survenues. 
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Pour i = 1 
(er, ro) = (1, €0) + (1, Pie — oc) ro). 

Compte tenu de (2.8), on obtient 
fie — fe = Ni + Gin) — Ÿ (ro + 8070) I < 

< R (NZ — 20 1 + In + ro) SR Url + Nr D. 
Par suite de (5.50) et (5.45) 

re RU Tr — Ze + Mrren — 2e I K CNR IE (6.53) 

Moyennant (5.53) et (5.49) on établit In |<CIf ICI II. 


Vu que IrnZClIAI, on trouve [rn | <CIr I. Donc 
fie — fe 1 EC IIro ll et on a, compte tenu de cette inégalité, 


| (es ro) | < CI ro LÀ ri 
Supposons les estimations (5.9) et (5.52) vérifiées pour 0 < à, j < 
ZT<n—'î. Puisque (f:,, r;) = 0, on a alors 
Gr FH = (ex +... +e;s r;) [<< Cry À rs 
O<j<T, (5.54) 
d'où, compte tenu de (5.53), 
| Grau TI CUS I I M4 Ie (5.55) 
Si (5.51) a lieu, || f5 [| [| fi+a 1 & Àg I ft+a Il. Il résulte donc de (5.55) 
| (fear ri) [<2;llrs | FAIRE SE 7 
Comme (fi41, r+<) — 0, on a finalement 
eo r)<hllrllfslh Si. (5.56) 
Utilisons les estimations (5.27), (5.56) et (5.25), il vient également 


(Hjfi, fe+1)2 2 (fret, ri)? ; : 
ne) Cninie SAP OST, (5.57) 
L(Hifi+t, fett) (H fi, fr+1) | 2 (fit ft 11 (rt, rl 

(Hje;, ej) m || r; À 
gl fe+1 II +1 IL | 
Nr 2) 
Etant donné [|r; | >C{||f |, 0 << j < T, et vu (5.53), (5.49), on a 
Ir I<CNAUECIÉIKCNIr OL SLILT (5.59) 


Compte tenu de (5.59), 


MON EN Fe IP, O<j<r. (5.60) 


En utilisant (5.57), (5.58) et (5.60), on établit de même que dans le. 
numéro 3 que (H:+ifrti, feti) > Art | fra |. 
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Montrons maintenant que 


: Het1es = TP + NM itus 0 Li LT, (5.61) 
Ou 
T : | 
Inc » ut ogj<r nil. (5.62) 
vej+i bi 
En effet, 
Horse; = He; + ra (rs: ej) _ (es, Hsej) Hses | (5.63) 


(rss €) (Hses, es) 
On a He; =r;. 
Utilisons les estimations (5.52) (justes par hypothèse pour 0 < s 
ZT), (5.25), (5.27), (5.47) et le fait que la; [<C,0< i LT, 
il vient pour s = j + 1 


Il (ejess Hire) Hjssejss IL _ 1 (js, 3) Hjssejss lc Ïl rj || Î rx || 
(Hjs1ejers €j+1) (H jatejess js) Ir jes 
Etant donné que (r;+,, e;j) = 0, on obtient à partir de (5.63) 


Hj4eej = 7; +0 jee || Ms, 540 | gcc ol LIL I : 


Supposons que pour un j+1<s<T?T _ a 


Hej=r;+ns [In <C s Tu Non 


ry| 
v=j+1 
En vertu des mêmes conditions que pour s — j + 1 on a alors 


s—{ 
Il (es, Hsej) Hses Il <C Il rj Il? Il Il C Il rj |l° I ris Il 
(Hses. 3) Il re + 2 [re il | 


rare, ep) Il <C rs res Il 
(rs es) Il rs [| 


On établit en portant ces estimations dans (5.63) 


8 
r;lllr 
Hyne; =r; + MN; st In. 1111 C > Lt, 
v=3+1 . 
Ainsi, (5.61) est valide par récurrence. 


Démontrons maintenant (5.52) quand i — t + 1. Compte tenu 
de (5.61), 


{ritts €j) = — Qr+s (Hitifr+ts ej) = — rx (fr+1, +), #1): (5.64) 
Var suite de (5.59) et (5.49) 
In >CIAI>C fn 0 <v<T. (5.65) 
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Utilisons cette inégalité et (5.62), il vient | Grta, 1j, su) l 


. C || ry IF Il ry+1 Il. Portons celle-ci et les estimations (5.54) dans 
9.64) et prenons en considération |æ&,+,| < €, nous établissons 
Cros Cr IF Mrsm ls 0 Ki KT. (5.66) 
Ensuite, 
(ects Ts) = (ratss 65) + (Fatss (P (Œrts + Ori cts) — (xs + Or) r;). 
(5.67) 


Etant donné (5.65) et (5.53), on a frul|&Clr;ll 0Sji<T. 
Compte tenu de (2.8) on a donc 


 F (Gres + Octare+1) — f(x + O5r;) [ <R (|| Tr+i — ZT) | + 
+ rt + rs DCI Tr, 


Reprenons (5.67) avec cette estimation et (5.66), nous trouvons 


| (extu HI <C Nr Pr ll 0 Li KT 


Ainsi, nous avons établi par récurrence les estimations (5.9) 
et (5.52) et achevé la démonstration du lemme. 


THéor£MEe 5.2. Etant donné une fonction f (x) deux fois conti- 
nüment dérivable et une matrice f” (x) vérifiant les conditions (5.3) 
et (2.8), si l'on recherche le minimum de f (x) par l'algorithme ((5.1), 
(4.48)) pour tous les £ suffisamment grands on a l'estimation 


ration — 2, Cent — 2, 1] Zen — 2, ||. (5.66) 


DEMONSTRATION. Par suite de (5.45), l'estimation (5.66) est équiva- 
lente à 


fn 1 CI: I fo Ne (5.67) 


Supposons que celle-ci n’a pas lieu pour tous les E suffisamment 
grands. Il existe alors une suite partielle infinie {E,, } telle que 
les points correspondants vérifient les inégalités 


I fo I Is 1 À, llfn 1, Àz,, + 0 pour En — 00. (5.68) 


On estime sans restreindre la généralité que la suite partielle {Eh} 
coïncide avec toute la suite E = 0, 1, . On s assure en tenant 
compte de (5.49) que les estimations (5. 51) ont lieu dès qu'on a (5.68). 
Si ces dernières sont donc supposées justes, les exigences du théorème 
5.2 garantissent les conditions du lemme 5.1. Ainsi, la validité de 
(5.68) entraîne celle de (5.9) et (5.52). Donc 


[On F1 = | (enn + eee + eyes Fr Cry IP [ru ÎL 
0O<j<nr— 2. 
8—01608 
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On montre comme pour les inégalités (5.56) que 


ns rl kg ln rs I Ag — 0 pour & —+ o, (5.69) 
0OLj<Ln—. 


Montrons que dans le cas de l'estimation (5.51) le système 
Toy + + + Tn-1 eSt linéairement indépendant. Commençons par dire 
que (5. 51) implique, compte tenu des estimations (5.9), 


rs I retail 0KT<j<nr—1. (5.70) 


Vu (5.70) et (5.47), les estimations (5.52) peuvent prendre la forme 
[Ge es) |A llr: rs As lri lle IL À; —+ 0, 
iZj,i, j—=0,1,..., n — 1. (5.71) 


Introduisons la notation r; = r;/||r, || et soit 
n—1 n—i 
lol= min |2 Bill =1| X Br 
n—1 i=0 120 
D \B;1=1 
i=0 


On a alors 
LG, e)1Z1B5 trs e)1—1 2 BG, en I: (5-72) 
Puisque Ÿ 2 SI = = 1, on a [B;|>B >0 pour au moins l’un des 


indices jé 0, nr — 1. Ceci étant, on a, compte tenu de (5.18) et 
(5.47), 


Br, l>Clrml>ClIerll. 
Quand i j, on a, vu (5.71), 
Bi Gr, el <AelBelllre Mlle = AglBillles Il 
À —> 0 pour £ —+ oo. 


Récrivant (5.72) moyennant les inégalités obtenues, on s'assure 
que pour E suffisamment grands on a |(p, e)|>Clle; il, i.e. 


lp 1>cC- (5.73) 


D'où |’ indépendance linéaire du système ro, . . ., 7h 1. On démontre 
de plus sans peine, moyennant (5.73), l'affirmation suivante: si 
Dos - - + Vn1 est le système dual de r,, ..., r,_1, on a pour £ 
suffisamment grands 


rs Hp IE, 0<i<nr—T. (5.74) 
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On démontre enfin que dans les conditions (5.69) et (5.74) le système 
de vecteurs f,, ro, : «+, Tn 1 eSt lui aussi linéairement indépendant. 
Supposons en effet que 


ni 


n- 1 - 
= 2 = 2 (no Ti) Yi. 
Ceci étant, on a en vertu de (5.69) et (5.74) 


I fn US CA; | fall. 


Du moment que À —> 0, cette dernière inégalité n'a pas lieu pour Ë 
suffisamment grands. D'où l'indépendance linéaire du système 
1 Los 1e co le 

Sous l'hypothèse de l'absence de (5.66) pour tous les E > E, 
(avec £, un nombre suffisamment grand) nous avons démontré l'indé- 
pendance linéaire dans £" du système de x + 1 vecteurs fn, ro, . .. 

Tax Ce qui est impossible. Ainsi, l'hypothèse de départ est 
fausse, i.e. on a bien l'estimation (5.66). 

Le théorème est démontré. 


9. Discussion des résultats. Ainsi, nous avons établi l’applicabi- 
lité de toutes les techniques du $ 4 dans la recherche du minimum de 
fonctions non quadratiques, la convergence pouvant être garantie 
pour une classe de fonctions à minimiser par les méthodes du gra- 
dient. Quand les méthodes des directions conjuguées s'appliquent 
à des fonctions fortement convexes, leur convergence est au moins 
superlinéaire. 

En évaluant la vitesse de convergence des méthodes des directions 
conjuguées nous avons agi un peu autrement que pour les méthodes 
d'autres classes des paragraphes précédents: nous avons considéré, 
au lieu de {z,}. la suite {z:,}, i.e. nous avons en fait pris pour itéra- 
tion la réunion de nitérations ordinaires du processus ze,, Tentis - . - 
- +. Tintn. De tels processus peuvent en général converger plus 
lentement que les méthodes des directions duales ($ 3) et à plus 
forte raison que la méthode de Newton ($ 2) (i.e. la décroissance de 
la fonction par itération | f,+1 — f, | peut s'avérer moindre pour la 
classe considérée que pour les méthodes des $ 2,3 et le rapport 
[| Tata — Ze I / zx — z,ll plus important). Si, par exemple, dans 
un algorithme 


Tn+a — Tr = —Difh, (5.75) 
et dans une méthode des directions conjuguées 
TEtun — Tin — —DEfen: 


et D, = D;n —+ fr, cela signifie que n itérations de la dernière 
technique sont équivalentes au sens de la convergence à une itération 


gs 
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de (5.75). N'empêche que du point de vue pratique la vitesse de con- 
vergence des méthodes de la classe considérée est sensiblement supé- 
rieure à celle des méthodes du gradient. 

D'autre part, les premières coûtent par itération (on l’a déjà 
signalé au $ 4) à peu près la même chose que les deuxièmes. 

Nous sommes donc autorisés à affirmer que lorsqu'il s’agit d’un 
problème de minimisation, les méthodes des directions conjuguées 
se révèlent parmi les plus efficaces. 

Dans ce paragraphe nous nous sommes bornés à plusieurs algo- 
rithmes construits au $ 4. On pourrait très bien étudier les propriétés 
d’autres algorithmes de ce type construits moyennant le schéma 
général du $ 4 et la technique en serait sensiblement la même que 
celle du $ 5. En effet, la seule différence dans la démonstration 
du théorème 5.1 est d'employer des procédés légèrement différents 
pour analyser les propriétés de la matrice H,. Mais. quelle que soit 
la méthode de la classe en question, les vecteurs u, et v, servant 
à construire H,;, ne sont que diverses combinaisons linéaires des 
vecteurs r,; et H%e, (voir (4.32)). Or, en choisissant les algorithmes 
des $ 4,5 nous avons procédé de sorte que les matrices H, soient 
construites en utilisant des combinaisons variées de ces éléments. 

Servons-nous des résultats obtenus pour comparer les propriétés 
de divers algorithmes dans la recherche du minimum de fonctions 
non quadratiques. 

Les résultats du théorème 5.2 (estimation (5.66)) montrent que la 
vitesse de convergence de la suite {z:,} dépend essentiellement des 
propriétés de la matrice H,,. Si pour E —+ 


H'en —+ Pen)? (5.76) 
alors 


Il TEn+1 — Le Il =$:0 
[Zen — 2 || 


et la convergence devient plus rapide. Dans la pratique, ce fait 
présente un intérêt particulier pour les algorithmes dans lesquels 


H, = A (5.77) 


dans la minimisation d'une fonction quadratique. En font partie 
les algorithmes (4.48), (4.49), (4.52). Lorsqu'on aborde un problème 
par l’un de ces algorithmes et qu’on est dans la condition (5.76), 
les considérations ci-dessus nous font nous abstenir de reconstituer 
la matrice H,. 

Dans la méthode (4.70), la condition (5.77) n'a pas lieu et sa 
variante sans reconstitution ne possède donc pas d'avantage (au sens 
de la convergence) sur la mise en œuvre avec reconstitution. C’est 
également le cas d’algorithmes tels que dans la minimisation d’une 


Jonction quadratique ou bien H, = H, (p. ex. (4.69), (4.71)) ou 


LR 
4 
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bien H, s'approche de H, (c'est la matrice H, de la méthode (4.70), 
qui agit sur le système de vecteurs linéairement indépendants es, . .. 
... En (excepté ce dernier) de même que },). Ce n'est donc 
pas la peine de considérer les versions sans reconstitution de H,. 

La convergence des méthodes (4.70), (4.71) devient cependant 
plus rapide si l’on utilise, au lieu d'une matrice H, fixe, une suite 
de matrices H:, définies positives telles que 

H 30 + (fn)? (5.78) 
Si l’on se place dans les conditions du lemme 5.1, on construit les 
matrices H:, vérifiant la condition (5.78) par recours aux vecteurs 
Tino lEntis + + + V'intn 1 €t la formule utilisée est 
12 lEen+#lEn+t 
| ms Ni OonF'entt 
Hg+10 =. lEntir CEn+4) 

A la lumière de ces considérations, de toutes les méthodes des 
directions conjuguées, ce sont celles jouissant de la propriété (5.77) 
qui possèdent (au sens de la convergence) la plus bonne efficacité 
dans la minimisation de fonctions strictement convexes. 

Dans la pratique, il y a certes exceptions à cette règle en ce sens, 
par exemple, qu'avec la méthode (4.70) on trouve la solution d’un 
problème de minimisation (avec une précision déterminée) au bout 
d'un nombre moindre d’itérations que, disons, moyennant la’ méthode 
(4.48). Le fait est (nous y avons insisté à plusieurs reprises) que la 
vitesse de convergence d’une méthode concrète subit l’influence de 
nombreux facteurs complémentaires comme les erreurs de calcul, 
un choix inexact de la valeur de «; et d’autres encore et que la sensi- 
bilité aux perturbations varie d’un procédé à l’autre. Une comparai- 
son de la vitesse de convergence n’a en outre de sens que dans un 
voisinage suffisamment restreint du point de minimum, toute con- 
frontation de la puissance de divers algorithmes dans une région 
éloignée de ce point n'étant possible que par la voie d'expériences 
numériques. | 

Plusieurs auteurs (J. D. Pearson [92], J. Greenstadt [69], B. Po- 
liak [28; 2], H. Y. Huang, A. V. Levy [76]) citent les résultats de la 
résolution numérique de problèmes par les méthodes des directions 
conjuguées. Le dernier ouvrage fournit la plus complète analyse 
comparative de divers algorithmes. Dans l’ensemble les résultats 
des expériences sur machine confirment la puissance des méthodes 
vérifiant la condition (5.77). D'autre part, la méthode (4.71) s'avère 
la plus efficace (par comparaison avec le processus sans reconstitu- 
tion) si la matrice est reconstituée en n itérations. Visiblement. la 
technique (4.70) est à réaliser elle aussi avec reconstitution de H,. 

Pour conclure, arrêtons-nous sur des questions relatives à la 
longueur du pas dans les méthodes de la classe considérée. On sait 
déjà que dans les méthodes des directions conjuguées le choix du 
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pas se fait à partir de la condition de minimum de la fonction dans 
la direction de déplacement. Nous avons signalé plus d'une fois 
l'inconvénient de cette procédure, à savoir la nécessité d'effectuer 
de nombreux calculs de la fonction, ce qui en détermine un coût 
assez élevé dans des problèmes où le calcul de la fonction est labo- 
rieux. Dans certains cas, ce procéde de choix du pas exclut en général 
toute résolution si, par exemple, la valeur du paramètre «&,; varie 
fortement à chaque pas. Ce défaut des méthodes en question est mis 
à l’index dans de nombreux travaux (p. ex. C. G. Broyden [46 ; 2], 
B .Pchénitchny [29 ; 3], W. C. Davidon {54 ; 2], M. J. D. Powell (94: 
1], R. Fletcher (60; 1]). Pour en venir à bout, ces auteurs consi- 
dèrent des méthodes où le choix de «4 ne fait que garantir un certain 
degré de décroissance de la fonction. Quant au reste, ils s’inspi- 
rent, en construisant les méthodes, des mêmes idées que celles 
exposées plus haut (l’ouvrage de B. Pchénitchny en est une excep- 
tion). 

Il est infiniment plus difficile d'étudier les propriétés de méthodes 
où le choix du pas n’est plus lié à la recherche du minimum de la 
fonction dans la direction de déplacement si bien que nombre d’entre 
elles n'ont pas reçu de justification théorique même lorsque la fonc- 
tion à minimiser est quadratique. 

Du point de vue du choix de la valeur de &,, on constate l'avantage 
des méthodes des directions duales du $ 3 dont l'évaluation de la 
convergence est plus précise. Mais elles exigent plus de mémoires 
(il faut stocker deux matrices rz X n; voir $ 3) et permettent donc 
de résoudre des problèmes de minimisation en dimension moindre. 
Il est vrai qu’on peut réduire l’occupation de mémoire nécessaire 
en choisissant les vecteurs r, coïncidant avec les axes de coordonnées, 
mais avec cet artifice on a à calculer la dérivée deux fois par itération, 
d'où un coût plus grand de tels algorithmes. 


$ 6. Méthodes directes 


1. Préliminaires. Les méthodes de minimisation que nous avons 
considérées nécessitent à chaque itération le calcul de la fonction 
f (x), de son gradient f’ (x) ($$ 1, 3, 4, 5) et, dans la méthode de 
Newton ($ 2), de la matrice des dérivées secondes f” (x). Nous avons 
insisté sur le caractère laborieux du calcul de f” (x), qui constitue, 
dans de nombreux cas, l’élément le plus coûteux et ardu du processus 
itératif, et nous avons élaboré les méthodes des $$ 3-5 dans le but 
de l’éviter. Dans certains problèmes la recherche du gradient peut 
s'avérer elle aussi notablement plus compliquée que celle de la 
fonction (il se peut même qu’il soit impossible d’exprimer f’ (x) 
analytiquement). La résolution du problème se fera alors de préfé- 
rence par des techniques n’exigeant que le calcul des valeurs de la 
fonction. 
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La recherche du gradient par une formule analytique est remplacée 
par un Calcul approché en utilisant par exemple l’approximation 
aux différences de dérivées partielles. On construit ainsi des variantes 
des méthodes des paragraphes précédents, qui se bornent au calcul 
de la fonction. A force d'exiger une approximation d’une précision 
déterminée et d'imposer certaines contraintes supplémentaires sur la 
construction du processus itératif, on obtient des méthodes modifiées 
dont les propriétés (convergence et sa vitesse) se rapprochent de celles 
des algorithmes de départ utilisant le calcul de f’ (x), f” (x) par 
des expressions analytiques. 

L'étude de méthodes directes rend un autre service: en établis- 
sant la précision de l’approximation de dérivées pour laquelle les 
propriétés de tels algorithmes coïncident avec celles des méthodes 
initiales correspondantes, on définit en fait les erreurs de calcul 
permises qui n'altèrent pas les propriétés des algorithmes (avec 
calcul de f’(x}), f”(x)). 

Dans le présent paragraphe nous n’étudierons que des algorithmes 
construits dans le cadre des méthodes des directions duales du $ 3, 
si bien que cette appellation sera conservée. Nous nous arrêterons 
également sur des algorithmes qui réalisent l’idée des directions 
conjuguées sans le calcul du gradient ou son approximation aux dif- 
férences. 


2. Construction des méthodes des directions duales. Dans ces 
méthodes, les approximations successives sont générées par la for- 
mule 


Th+3 = Th — anDr'£n (6.1) 


où D, est une matrice r X nr et g, un vecteur. A la difference des 
méthodes ci-dessus le facteur scalaire &, peut prendre des valeurs 
positives ou négatives selon la direction de descente (—D;'g, ou 
D;\g,) de la fonction f(x). On peut encore estimer que a, > 0 
et prendre alors pour direction de déplacement soit le vecteur p, — 
— —D;j'g,, soit poser p, — Di! g, de façon qu’on ait 


(fr, Pr) € 0. (6.2) 


Comme au $ 3 on considère que f (x) est fortement convexe et admet 
des dérivées secondes continues. 


CONSTRUCTION DE LA MATRICE D, ET DU VECTEUR g,. Définissons les 
vecteurs 


D, — (en ren RE) 
k —= D —— "|, 


HR HR 
_— (/ (ya + nus) — f (yn) La tre) (un) 
k Tr 1...) Tr , 


x = Pr — Ùn, 
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où O<l|ul|<lre ll, é >1, yr, r. sont les termes de la suite 
(3.5) et v, le vecteur unité de l’axe correspondant. 


LEMME 6.1. Etant donné une suite bornée {x}, || Zy+1 — zx || — 0 
pour k—>- oo et une matrice D, définie, quel que soit k > n — 1, 
par le système d'équations 


Derz = V1: i — 0, 1, so. 7 — 1, (6.3) 
où r1-, sont les termes de La suite (3.5), on a 


La DEMONSTRATION coïncide pour l'essentiel avec celle du lemme 
3.1, aussi seules les différences nous intéresseront. 

Les composantes des vecteurs Ÿ, et o, peuvent se mettre sous la 
forme 


oi =? ? 0<0,<1, 
027 |x=x,+0;u0; 
= À , OS, 
027 (eux +Eju0 
F1; 2437. 


Vu ces formules et la continuité des dérivées secondes on s'assure 
aisément de la justesse des estimations 


1192 — f(x) I Ciluant/2< Cire (ff, (6.4) 
I Pa — À (ua) ICS | da llrt/2<Cillra |l*, (6.5) 


avec C,, Cj < ©. 
Ecrivons le vecteur #,-,; comme suit: 


Vans = (Un) — À (trs) + (Qui — À (ya) — (ni — F (x). 
En conservant la notation e,_ —f" (yr-:1) —f" (z:-1), on obtient 
Dares = en + (Qui — fl (ya) — (On — À (zx), (6.6) 
i=0, 1,...,n—1. 


Notons B,—D;—f"(x1;,). En procédant comme pour le lemme 3.1, 
on aboutit à l'estimation 


| B;rr-1 Il < hs Î Tai || + Il Vyni — f (Tnt) || + Ï Pat —  (Yn-1) Il, 


où 'h,3-j—>0 pour À—+ co. Compte tenu de (6.4) et (6.5) il en 
résulte 


Bars Ras ras + Coran ff, Cy<o, 
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ou 
I Barr: 1 Ras rai ll 


où Ra = hp +Cs rh: ras pour # — co. 
La démonstration ultérieure reproduit les raisonnements du 


lemme 3.1. 
Définissons le vecteur 
__ ff (zn + Pnvs) — f (zn) f (Th + Onvn) — f (zh) 
ex= | D PR — le (6.7} 


où |Px [SI | (Si px = un, alors g, = Ÿ3). 
l est clair que la convergence et la vitesse de convergence de la 


suite (6.1) dépendent, en plus de la valeur de D,, de la qualité 
de l’approximation de f’ (x,) par g,. Pour garantir une grande vitesse 
de convergence de (6.1) vers la solution on doit avoir (on le verra 
dans la suite de l'exposé), pour tout k, les inégalités 


O<Tprl< Ex | pa Il, (6.8) 


avec £, tendant de façon quelconque vers zéro pour k# —+ oo. Si à une 
itération la valeur choisie de p4 ne satisfait pas aux conditions (6.8), 
on fractionne p;, on calcule un nouveau vecteur g,, puis un nouveau 
pr et on teste (6.8). Comme g; — fx pour | p:| —+ 0 et qu'alors 
pa I [DE | et | Dif, 1 > 0 quel que soit zx, zx, (Di! est 
régulière en tant qu'inverse de D, ; en ce qui concerne le calcul de 
D; voir n° 3 (Calcul du vecteur p;)), les conditions (6.8) ont lieu 
pour p, suffisamment petits. 


DE£TERMINATION DE LA DIRECTION DE DÉPLACEMENT. En se donnant 
une valeur y, (on la choisit naturellement suffisamment petite), on 
calcule les valeurs de f(x) aux points x, + Y,Di'g,. Si en l’un 
de ces points la valeur de la fonction est inférieure à f (x;), on prend 
pour p, le vecteur correspondant Dig, ou —D;g, (la condition 
(6.2) ayant lieu en vertu de la convexité de f (x)). Si les deux valeurs 
de la fonction sont plus grandes que f (x;), on fractionne y, tant 
que l’une d'elles ne devient pas inférieure à f (x:); le vecteur 
correspondant est pris pour pP}. 

Il se peut cependant que pour y petits la fonction ne décroisse 
suivant aucune direction +D;'g,. Cela signifie que 1) les valeurs 
de y pour lesquelles la fonction décroît ne sont pas encore atteintes 
ou 2) on a la condition (f;,, Dz!g,) — 0 (ce qui n’est possible, on le 
verra par la suite, qu’au stade initial du processus auquel cas aucun 
des vecteurs +D;'g, n’est évidemment pris pour p:). Pour exclure 
cette éventualité on calcule un nouveau vecteur g, , en modifiant 
pr (mais en conservant les conditions (6.8)), puis un nouveau Dig, ; 
et, à partir d’un certain y < Y,, on recherche également les valeurs 
de la fonction aux points x, + yD5'g,,1. Si x, 2, l’une des direc- 


122 METHODES DE MINIMISATION DE FONCTIONS SANS CONTRAINTES [CH. II 


tions +D;'g, ou +D;'g, , est nécessairement une direction de 
descente, et le vecteur correspondant est pris pour p4. 


ALGORITHME DE CHOIX DU PAS. On choisira «; comme suit : on pose 


ee |(£ns Px) | 
@ = min {1, R Nm J° So 

où O0<R<X, et on vérifie l'inégalité 
f (x) — f (zx) < ea Bx (gx, Pa), (6.10) 


avec z = Tr ED APh Pr — —S8 (ns Ph) 0 LE << 1/2. 

Si cette inégalité a lieu pour &« = «,, celle-ci est prise pour valeur 
cherchée. Dans le cas contraire, on fractionne a, jusqu’à ce que 
(6.10) soit vraie et on prend pour valeur cherchée la valeur de ax 
ainsi obtenue. 

Ce procédé de choix de «&, suppose évidemment (g,, px) # 0. 
Si cette inégalité devient une égalité à une itération (cela ne peut 
arriver qu’au début du processus), on fractionne p,4 et on recalcule g,. 

Analysons les propriétés de la suite (6.1) lorsqu'on construit 
comme indiqué la matrice D,, le vecteur g, et le paramètre «. 


TH£EOREME 6.1. Si f(x) est une fonction deux fois continüment 
dérivable satisfaisant aux conditions (2.4), la matrice D, se définit 
pour tout k => n — 1 par le système (6.3), le vecteur g, par l'expression 
(6.7), avec p, vérifiant les conditions (6.8), et «, comme décrit plus 
haut, on a pour la suite (6.1) des assertions analogues à celles du théo- 
rème 3.1. 


DEMoNSTRATION. Pour utiliser le résultat du lemme 6.1, il faut 
montrer en premier lieu que dans les conditions du théorème la 
suite en question vérifie la condition {|| zy+1 — zx || —- 0. 

Développons au second ordre f (x) autour de zx;,, il vient 


œ CPR: 
fn+1 — fn = GnPn (£rs Pa) [ EE Pa En PI 7 Le Te . 


où The = Th + 0 (Zi+1 — Th), 0OSO0<1. Etant donné Bx (Eh Pr) <0, 
l'inégalité (6.10) a lieu si 


(hs Pr), Gh (fkcPh Px) 


Pa us Pa) T2 Pan Eh Py) — *° 
ou, ce qui revient au même, 
41 (x, px) 1 (fkcPR, PR) ss (6.14) 


an Br(gr, Pr) Ÿ 2 Bagr, Pa) 7 
Par suite de (6.2) et du choix de ;, 


(fh, Pa) 
Ba (8n» Ph) 
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Par conséquent, on a, pour un certain &; >>0, l'inégalité (6.11) 
et donc (6.10), ce qui démontre la possibilité de choisir a; comme 
décrit plus haut. 

Ainsi, fr+, < fx. en vertu de (6.10). Cela signifie que x, € S — 
= {x: f(x) Lf(x)} pour tout k, et, f (x) étant minorée, f, — f,4, — 
—+ 0. Cela fait que (6.10) entraîne pour k# —+ 


L ah | (xs Px) | — 0. (6.12) 
Puisque ax < «&r, il découle de (6.9) 


[(&n» Pa) >< Il pa |. 


Compte tenu de la dernière inégalité la condition (6.12) montre 
que [| zx+1 — 2x || = &x [| Pr [| — 0 pour Æ tendant vers l'infini. 
Les conditions du théorème garantissent donc les exigences du 
lemme 6.1 et donc 


Dr — fr [| — 0. (6.13) 
Montrons que dans les conditions du théorème pour # —+ 00 
(a, Px) 4 Z 
Ba CG mn 1 0) 
On a 
Cfh, pr) _ 1 4 (her, pr) D 1, Ufk—en ll Pa | 
Ba(gr, Pr) Bu + Br (gn, Px) < Pr de [(gr, PR)l (6.15) 
Le vecteur g, s'évalue par 
gr — fl < Celpa ln = Cilpa| (6.16) 
(une estimation analogue à (6.4)). Puisque 
[ns Px)} = 1 (Dapr, Pa) | ; (6.17) 
il en découle, par suite des conditions (6.13) et (2.4), qu’à partir 
d'une itération 
| (gx, Pa) | > mu |] pa lF, (6.18) 


où Om, <Lm. On s'assure moyennant les estimations (6.8), 
(6.16) et (6.18) qu'à partir d'une itération on a les conditions 


IL fk —gn IL I Pa l Cal 1 | Pr l C7 
LS A 1 A Pt AE AE LP 68 OR À 
(SR: PR) = millPpal mm Ex 


11 résulte par suite de (6.15) B, = +1 à partir d'une certaine itération 
(vu la positivité du second membre de (6.15)) et donc, en effet, la 
condition (6.14). 

Le gradient f’ (x) est borné sur l’ensemble S: [fi | < ZL. Vu 
que | px | < p << co on se convainc à l’aide de (6.16) que || gx | < L: 
pour tout k. Par analogie avec le théorème 3.1 on établit que | Di || 
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< M, quel que soit k = n — 1. Par conséquent, 
Pr N < IDE I gx M < Ce. 


Cette estimation et l’inégalité (6.18) aidant, on établit que pour k 
suffisamment élevés 


Len, Pa)l =, ms ll pr IP 
TR 2 Tr MP Ce > 0. GE 
Par suite, (6.9) entraîne, à partir d’ un certain #, 
a > a >0. (6.20) 


En utilisant les conditions (6.14) et (6.18) on constate de même 
sans peine que pour k suffisamment importants l'inégalité (6.11) 


et, partant, (6.10) sont remplies pour les valeurs «a > &« => 0. Réunies 
à l’estimation (6.20) ces inégalités montrent que 
ŒR > Co > 0 


à partir d'un certain #. Cette estimation fait que la condition 
x || Pr I| —> O dont nous avons parlé plus haut implique, quand 


k — oo, 

Il Pr 1 — 0. (6.21) 
Du moment que || gx || = [| Dipz I < VW Il pa |, on a pour || p4 || 
tendant vers zéro 

Il ga || — 0. (6.22) 


En vertu des conditions (6.8), (6.16), (6.21) et (6.22) on dit que, 
lorsque À —+ co, 
IL (zx) I 0, 


ce qui signifie (conséquence de l'inégalité (1.12) juste pour des fonc- 
tions fortement convexes) la convergence vers la solution de la 
suite (6.1). 

Evaluons la vitesse de convergence de la méthode. 

Par suite des conditions (6.17), (6.21) et de la continuité uniforme 
des dérivées secondes de la fonction sur l’ensemble S, on a pour 
k — oo 


(fhcPn, Px) 
l(£ns Ph) | Éce. 


Utilisons cette condition et (6.14). On s'assure aisément que l’inéga- 
lité (6.11) et donc (6.10) sont vraies pour &« = 1 si k est suffisamment 
grand. Les relations (6.19) entraînent pour || px || —> 0 


Lens PH)l 
Il Pr 8 
C'est pourquoi, ax = 1 à partir d’un certain 4 lorsqu'on choisit 
&x par la condition (6.9). 


— 
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A la lumière de ces remarques, &,=1 à partir d’une certaine 
itération et, de plus, 
The — Zn = —Digr. 


D'autre part, on peut trouver une matrice D;! telle que 
Zn — 2 = —Difi. 


Dans les conditions (6.8) et (6.16) la suite de matrices D, peut être 
choisie de façon qu'on ait 


D, —+ De. (6.23) 
A cet effet, on pose par exemple 
(fs — 8h) 


De = D (ru 2). 

R R Il Zh44 — Th TE ( R+1 h) 

Ji n’est plus difficile de démontrer la convergence superlinéaire de la 
suite (6.1). Pour y arriver, on raisonne comme pour le théorème 2.1 


et on démontre l'inégalité 


Tres — Ze DE De — fre MZ — ze Île 


Utilisons ensuite les conditions (6.13), (6.23) et la continuité 
des dérivées secondes afin de nous convaincre que, quand # —+ co, 
ID, — fr 1 +0 et 1 D;! |] est une quantité bornée. Par suite, on 
a pour * tendant vers l'infini 


Il Tkhel — ZT, [| < Àn [| Th — Le [l, (6.24) 


où À, +0, ce qui démontre la convergence superlinéaire de {x,} 
et du même coup le théorème. 


3. Quelques remarques sur la mise en œuvre des méthodes des 
directions duales. DIVERS ALGORITHMES. Les vecteurs r, servant 
à construire la matrice D, sont assujettis aux mêmes conditions que 
dans le cas de la suite (3.5). Tout ce que nous avons dit au n3$3 
sur la construction de divers algorithmes du type (3.4) reste donc 
vrai pour le processus (6.1). 


CALCUL DU VECTEUR p,. Les résultats du n° 4 $S3s appliquent en 
l'occurrence entièrement. Ainsi, la base 5,1, Sp, .…, Sx-n+° duale de 
Dhtis Was es Dr-n+2 S0 forme selon les formules (analogues à (3.21)) 


Sh+1 — 


Skh=n+1 _ 
Sh+1-3 = Sh+1-] — 


(Sr-n+1; €h+1) ? 
— (Sn+s-gr En+s) She 1 =, R— 1. 


Pour vérifier l'indépendance linéaire des vecteurs Pay, Pns +, Vr-n+e 
il suffit de calculer le produit scalaire (s,_n41, Pa+1): (Sh-nr1r Vis) F0 
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confirme cette propriété. Dans le cas contraire, il faut modifier 
ou le vecteur r,,, ou l’un quelconque des vecteurs{Ô;;1, @r+1 (cela 
fait varier 1,1). 

Dans la pratique, les approximations successives sont à générer 
par la formule (analogue à (3.25)) 


n—1 
Th41 = Th — AR > (Sxis En) Tr-1. (6.25) 
den 0 


DEMARRAGE DU PROCESSUS. Les premières itérations du processus 
(k << n—1) s'effectuent de différentes manières. On peut par exemple 
suivre l’une des directions B;g», Bx — + 1 en choisissant le signe 
de B, de façon que f (x) décroisse. 

Afin d'assurer l'uniformité du processus itératif (6.25), on peut 
le faire débuter comme l'indique le n° 5 $ 3. 


MINIMISATION D'UNE FORME QUADRATIQUE. Soit f (zx) — >: (Az,z) + 


+ (b,zx) + c, avec (4x, x) >> 0 pour tout z=£0. On constate alors 
aisément que le vecteur Ô, = gx = f’ (zx), @x = f” (yx), Vr = ex, 
i.e. D, — A2, et le processus (6.1) coïncide avec (3.4). Par conséquent 
(voir n° 6 $ 3), le premier processus permet de trouver le minimum 
d’une fonction quadratique en x pas, ce qui demande le calcul de 
(n + 1° valeurs de la fonction. 


SUR LE CHOIX DU VECTEUR 8,. La méthode (6.1) suppose, en plus 
de l’approximation de la matrice f” (x), le remplacement du gra- 
dient f’ (x) par son analogue aux différences, à savoir par le vec- 
teur g,. La convergence superlinéaire a alors lieu (comme nous 
l'avons noté) dans les conditions (6.8). Si on n’a celles-ci qu'à con- 
dition de calculer plusieurs fois g, à une itération, le coût du pro- 
cessus (surtout pour un espace de dimension élevée) augmente en 
conséquence. 

Notons la possibilité de choisir |p4 | = [| Px-1 À Si Pall << ||Px-1ll 
à chaque itération. Il se peut très bien que pour un tel choix de p, 
la dernière inégalité (6.8) est vérifiée au moins à partir d'une cer- 
taine itération. En effet, la vitesse de convergence s’évalue finale- 
ment par (6.24). La convergence ainsi évaluée est d'habitude plus 
lente que la convergence quadratique 


Îl Treta — Tr NS Te — Th IP, [Tr — zx Îl—- 0, 


c'est-à-dire, étant donné l'estimation (6.24),onaen général || p; | << 
< || ps || (rappelons que a; = 1, i.e. p, = ZTy+1 — Zn, à partir 
d’un certain k). En choisissant la suite {&,} de façon que &, — 0 
assez lentement, on peut donc espérer qu'avec le choix p; = ||px_l|l? 
l'inégalité (6.8) a lieu sans qu'il soit nécessaire de calculer plusieurs 
fois g,. Si la condition (6.8) n’est pas remplie de suite (ï.e. on a à frac- 
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tionner p,), cela atteste une convergence voisine de celle quadrati- 
que. 

Nous terminons ce numéro en disant que moyennant les résultats 
du n°38 3 et du présent paragraphe on établit les conditions de con- 
vergence de la méthode de Newton modifiée n'exigeant pas le calcul 
de dérivées. 


4. Méthodes des directions conjuguées. Voyons un procédé de 
construction de directions conjuguées dont l’idée est toute différente 
de celle des méthodes considérées au $ 4. 

Soit encore 


f(2)=+ (Az, 2)+(b, 24e, 


où (Az, zx) —>0 pour tout z #0. Admettons que les directions 
(non nulles) p,, ..., Pmr M<hR, Sont À-conjuguées et soient 
E" (xs) et E"(zo,m) deux sous-espaces m-dimensionnels distincts 
de Æ”" engendrés par les vecteurs p,, ..., Pm et passant par les 
points zo et Zo.m- Si Tm et Tm,m réalisent alors le minimum de f (x) 
sur ces sous-espaces, on a 


(f (&m); Pi) = 0, 
(f (zm m) pi) = 0, i—1,2,..., m. 
Par conséquent, (f° (tm) — f” (Zm.m)» Pi) = O ou 
(A (Li = TL: A): Pi) = 0, L — 1, 2, . 7 mm. 

Ainsi, les points de minimum de f (x) étant définis sur des sous- 
espaces distincts engendrés par les directions p,, ..., Pm A-Conju- 
guées, la direction Pr+1 = Tm.m — Im Se trouve conjuguée des 
Dis-< su D: 

Le procédé décrit de construction de vecteurs conjugués n'’exige 
pas qu'on calcule le gradient ou qu'on l'approche par son analogue 
aux différences. Donnons maintenant un algorithme concret de 
minimisation d’une fonction quadratique, qui fait appel à cette 
technique pour construire les vecteurs conjugués. 


Choisissons un point r, quelconque et un vecteur p, (qui est 
quelconque lui aussi). La m-ième itération de l'algorithme (m — 


— 1,2, ..., n) comprend les phases suivantes: 
1) on calcule le point 
Tm = Im] + AmPm) (6.26) 


aveC Œm défini à partir de la condition de minimum de la fonction 
f (@) = f(tm-1 + APm); 
2) on calcule le point 
Zo,m = Tm + Tm (6.27) 
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Tm étant un vecteur arbitraire qui ne constitue pas une combinaison 
linéaire des vecteurs D, . .., Pm (plus loin le choix de r, sera 
examiné plus en détail); 

3) on calcule les points 


Th, m — Th -1, m _… ŒR, mr: k= 1, 7 m, 


&h.m étant défini par la condition de minimum de f(&)= f (zx-1, m + 
+ ap); 

4) on définit le vecteur Dn+1 = TZm, m — Zm. SU ce, la m-ième 
itération prend fin. 

Le vecteur rm (dans (6.27)) ne doit pas faire partie du sous- 
espace Ë” (x), cela pour que Zo, m Œ E” (x). Puisque zx, réalise 
le minimum de f (x) sur ce sous-espace, il est clair qu'aucun vecteur 
TZ — Im qui est une direction de décroissance de f (x) n'appartient 
à ET (x,). On peut donc prendre comme r, toute direction de descente 
de f (x) issue du point zx». Il est en particulier commode de choisir 
Tm Coincidant avec l’un des axes de coordonnées; si r, ainsi choisi 
n’est pas une direction de descente, on le fait confondre avec l’autre 
axe. 
Conformément aux résultats du $ 4, le point x, obtenu par la 
formule (6.26) est un minimum de f(x) :x, — x.. On trouve x, 


en résolvant{+2+...+n = "#1 


misation à une variable (pour définir les facteurs &« et «x, m)- 

Avec cette approche de la construction de directions conjuguées, 
on forme divers algorithmes de minimisation de fonctions non quadra- 
tiques. I1 va sans dire que dans tout algorithme de ce type les direc- 
tions Py, - + -, Pm ML An, ne sont plus conjuguées (voir à ce propos 
n° 1 $ 5). On s'attend cependant à ce que de bonnes méthodes per- 
mettent de construire, dans un voisinage suffisamment petit du 
minimum zx, (d'une fonction régulière convexe), des vecteurs possé- 
dant des propriétés proches de celles des vecteurs conjugués. De 
tels algorithmes peuvent se révéler efficaces dans la recherche du 
minimum de fonctions non quadratiques. 

L'algorithme ci-dessus se base justement sur les considérations 
énoncées. 

Soient zx, , un point quelconque et U,,,, ..., Vin Un repère 
orthonormé; la k-ième itération de l'algorithme (4 = 1, 2, ...) 
consiste à 

4) calculer pour i —1,2,...,n 


n fois les problèmes de mini- 


Th = Th, it + Cr, iUR, 1 
où &z,, se définissent par la condition de minimum de la fonction 


f(@) = f (tn, 1-2 + ŒUn. 1); 
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NS avec Yx —||Za.n —2,0ll, et trouver 


le point Z;,n#1—=ZhnH+@nn#iUn,n+is OÙ Gx,n+1 eSt défini par la 
condition de minimum de la fonction 


2) poser Uy,n+1 — 


Î (zx, n + AU, n+1); 


3) supposer &4,. = max {a@,,;: i=1, 2, ...,n}, A, un déter- 
minant dont les colonnes sont les vecteurs v,, ,, ..., v, , ete 0 
une constante positive petite. Si 


h, sk 
— ZE, 
YR 
on pose Vyts, : = Un, x Pour à Æ Set V4, s = Uk, n+19 AUQUel cas on a 
Œh, sÂk 
ns re (6.28) 


Ah, sdk 


Mais si << &, on pose Ug+1, s = Un, ; pour tous les à — 


= 1,2,...,n; ceci étant, AÀ,;,, = À, ; 

4) poser Zy+1, 0 —= Th, n+1- 
C'est la dernière étape de la k-ième itération. 

L'égalité (6.28) est à prouver. Avant de le faire, discutons l'al- 
gorithme proposé. 

Considérons une version simplifiée dont la k-ième itération 
s'effectue comme suit. 

1) On construit les points x, ;, à = 1, 2, ..., n, comme dans 
1) de l'algorithme originel. 

2) On calcule %,,n+1= Zn,n + Œn,n#iVna,ntis OÙ Uni = Thon — 
— Zn,0 ©t Œn,n+1 Mminimise f (Ts, n + QUx, n+1). 

3) On pose U+4,: — Up, itts i = 1, 2, cs De 

4) On pose z,+1,0 = Zn. n+1- 

Soit 4 —2. On a alors 


Le,0 = Li,n+i = Li,n + Li, n+il1, n+ts 
Lo,n = Le, n-1 + Lo, nle,n = Lo, n1 + Go, ni, n+1, 


i.€. Ze, p Et Ton Sont deux points de minimum de jf (x) sur un espace 
unidimensionnel (engendré par le vecteur v, ,+1) passant par deux 
points différents zi,n et Ze,n-1. Si f (x) est une fonction quadratique, 
la direction ve, +1 = Ton — Lo, y Se trouve conjuguée de la direction 
Uj,n+1 = Ve, n COmme cela découle des résultats antérieurs. En conti- 
nuant dans cette voie, on se convainc que si les vecteurs v, ;, ... 
...s Up. n SOnt linéairement indépendants pour tout £ = 1,2,... 
..., N, AÏOrS VU, ns Vnsnr + + +» VR,n-n+e S aVèrent conjugués après 
la k-ième itération, i.e. on obtient z vecteurs conjugués en n itéra- 
tions. Avec ce procédé de formation des v,,1, . .., Ux,n il est impos- 
sible de garantir leur indépendance linéaire. En effet, sionaa;, , — 0 


9—01608 
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pour un #, alors 


(on le constate facilement), i.e. à la (4 + 1)-ième itération le système 
de vecteurs vy41, ; — Up, j41s à = 1, 2, ..., n, possède la propriété 
d'être linéairement dépendant. Il est impossible dans ce cas de 
construire un système de » vecteurs conjugués ; cela veut dire qu'avec 
l'algorithme simplifié on ne garantit pas la résolution même pour 
une fonction quadratique. Si les étapes 2) et 3) de l'algorithme princi- 
pal sont compliquées, c’est justement dans le but d'éviter que les 
vecteurs v4,:, à — 1, 2, ..., n,soient linéairement dépendants (il 
se trouve que À, > E). 

I] faut cependant noter qu'avec l’algorithme originel on ne garan- 
tit plus la résolution en nr itérations du problème de la recherche 
du minimum d'une fonction quadratique. En effet, en passant du 
Système LU. 4, . . ., VUh,n AU SYSTÈME Us, 4, + + > Un+4, n OR risque 
de remplacer (voir 3)) l’un des vecteurs conjugués construits si bien 
qu'on ne garantit plus l’obtention de nr vecteurs conjugués en un 
nombre fini d'itérations. Le système de vecteurs v, ; peut de plus 
ne pas changer en passant à la (4 + 1)-ième itération. 

Prouvons l'égalité (6.28): 


Ap+s = det [(Un+s,1s + +. Uu+i,n)]= 


\ | —= det [(Ux, 4 ..., Ur, 8—1) Ur, n+i) Ur, ais ec...) Ur, n)]- 
ais 


n 
1 1 
Van (Tan —Th,0) = — >» LR, ip, ie 

ŸR Ÿ … 
Donc 
h, sÂR : 

1 
Ainsi, on a À, > & quel que soit ; ce qui garantit justement l'indé- 
pendance linéaire des v4,,, . .., 
Etudions certaines propriétés de “l'algorithme en question. 


TH£OREME 6.2. Etant donné une fonction f(x) strictement con- 
vexe continüment dérivable telle que l'ensemble S = {x: f(x) < 
< f(xz1.0)} soit borné pour un choix arbitraire du point x;.,, la suite 


{xr.i}, 0, 1, ss À; K°= 1, 2: . (6.29) 
construite de façon décrite converge vers le point de minimum de f (x). 


DEMONSTRATION. L'existence et l’unicité du minimum zx, de f (x) 
découlent sous ces hypothèses des résultats des lemmes 1.3.1 et 


A+ —-  e det [(Ur, Ar ec.) Vh,ss ce UR, n)] Fe 
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[.3.4. La seule chose à démontrer est donc la convergence de la 
suite {z,,;}. Tout point de (6.29) appartient à S (x ; ES) parce 
que f(zx, ;) = min f (x. ss + Uri) Ÿ (ar, 21) et f (a+. 0) = 
= f (Tr,n41) < f (TL, n). L'ensemble S est borné, i.e. il est compact 
(dans E”). On peut donc extraire de toute suite infinie d'éléments 
€ S une sous-suite convergente (vers un élément de S). En considé- 
rant {z2,,;} pour i — 0, 1, ..., n fixe, il existe, conformément à ce 
qu'on a dit, une suite infinie {zx} dont la limite est un point 
z; ES. La fonction f (x) étant minorée, on a dans ce cas f (C7 +1) — 
— (CR 1), d'où, compte tenu de la continuité de f (x), les égalités 


f (zi+3) D Ÿ (tm. i+1) ns es Î (Zhm. i) FF. Î (ri). (6.30) 


Montrons que z;4, = x; pour i = 0, 4, ..., n — 1. Par cons- 
truction || v,,,; || — 1 quels que soient k et i; on assimile donc les 
vecteurs v,., aux éléments de la sphère unité (un ensemble borné), 
et il existe par suite pour tout i = 1, ..., r fixe une sous-suite 
LUZ :} qui converge vers un vecteur v;. Puisque 2x. 412%. + 


+ Qu, isiUn, in Met Zamisi > Tisss Thmi 7 Lis Vhmi+i 7 Vitis ON A 
Tin Li + MitVi4t i 0, 1; sn, 

Où Gjx1— lim &@,,541. Vu que le point 2 ;:1 vérifie la condition 
— 00 

Î (Zn. 141) Tin f (zu, 4 + O4, 144); on doit avoir 
2 


Î (Zi) = min f (xi + avis), i—0, d ., n — 1, (6.31) 


œ , 
i.e. f (x) atteint son minimum dans la direction v;,, au point z;i+1. 
Mais il résulte de (6.30) que f (xz;+1) = f (xs). Etant donné la con- 


vexité stricte de j (x), il existe un seul minimum dans la direction 
d'oi — 


Ainsi, Zo = Ty =... —=Z7,. Désignons par x ce point commun. 
Les conditions (6.31) s'écrivent alors 
f@</G+av), i=1,2,...,n, (6.32) 


«a étant quelconque. S'agissant d'une fonction dérivable, ces condi- 
tions équivalent à 


f'G;v)=0,i=1,2,...,n. (6.33) 

Notons que det [(w,, ..., v,)] > € du moment que det [(v,. 1, ... 
-.. Ur,n)) > €, d'où l'indépendance linéaire des v,, ..., v,. Ce 
fait établi, (6.33) entraîne f” (x) = 0. f (x) étant strictement con- 
vexe, cela signifie que zx réalise le minimum de f(x): x = x.. 
g® 
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Ainsi, nous avons démontré l'existence d'une sous-suite {x,_.;} 


qui converge vers le point x,. Mais comme f (zu, 5) & f (x. i) 
pour tout à = 0, 1, ..., nr fixe et f (x) est minorée, on a les condi- 
tions 


Jim f (2,9) = lim f (Tam) = f (1) = f (2). 


Il en résulte, pour à fixe, les propriétés minimisantes de la suite 
{x,,:} et, partant, celles de la suite (6.29) qui converge donc, le 
minimum étant unique, vers le point x,, c.q.f.d. 

En démontrant les conditions (6.32) nous n'avons pas utilisé 
la dérivabilité de la fonction f (x), i.e. les inégalités en question 
restent valables pour une fonction continue strictement convexe. 


Dans ce cas x, point limite de la suite (6.29), peut ne pas réaliser 
le minimum de (x) ((6.29) peut en l'occurrence présenter plus d’un 
point limite). 


9. Discussion des résultats. Commençons par dire que le domaine 
d'application de la méthode des directions conjuguées est plus 
vaste que celui des techniques utilisant des directions duales, ce qu’on 
constate aisément en comparant les contraintes imposées à la fonc- 
tion à minimiser dans les théorèmes 6.1 et 6.2. 

L'étude des propriétés de la méthode considérée des directions 
conjuguées est loin d'être terminée. C’est le cas, par exemple, de la 
vitesse de convergence de l'algorithme, dont on sait qu'elle 
doit être plus mauvaise (lorsqu'on minimise les fonctions d’une 
méme classe) que celle des méthodes du $ 5. En effet, il suffit de dire 
que l’alsorithme étudié ne garantit pas l'obtention du minimum d’une 
fonction quadratique en n itérations (et en général en un nombre fini 
de pas), i.e. il ne garantit pas la construction d'un système de » 
vecteurs conjugués en un nombre fini d’itérations. Sous l'aspect 
vitesse de convergence les méthodes des directions duales à conver- 
gence superlinéaire sont donc plus bonnes. 

Tâchons de comparer le nombre d'opérations par itération des 
algorithmes considérés. 

Dans les méthodes du type (6.1) on effectue par itération, selon 
la variante (voir n° 3), nr + 1 ou 2 (n + 1) calculs de la fonction 
(pour définir la matrice DE) et nr + 1 calculs de la fonction (pour 
construire le vecteur £,); il se peut qu'à certaines itérations ou bien 
gr se définisse sans qu'on ait besoin de connaître de nouvelles valeurs 
de la fonction (si p, — u,) ou bien le volume de calcul augmente de 
plusieurs fois selon la qualité de l’approximation du gradient par g,. 
Le choix de la direction de déplacement et de la grandeur du pas 
demande lui aussi plusieurs calculs de la fonction. 

Chaque itération de la méthode des directions conjuguées coùte 
n + 1 calculs du minimum de la fonction dans la direction de dépla- 
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cement. À supposer que la résolution d’un problème unidimensionnel 
de minimisation demande en moyenne 3 à 4 calculs de la fonction, 
le nombre de calculs de la fonction par itération est sensiblement le 
même dans les méthodes des deux types. I] est vrai qu'on ignore la 
précision avec laquelle on doit calculer le minimum suivant la 
direction de déplacement dans la méthode des directions conjuguées 
pour que les propriétés du processus se conservent. Du point de vue 
de l'influence sur la convergence on doit préférer l'algorithme de 
choix de «a, dans le processus (6.1). 

Sous la condition d'être praticables, les méthodes dutype (6.1) 
sont dans l’ensemble plus efficaces que la méthode des directions 
conjuguées, mais nous voulons insister une fois de plus sur son domaine 
d'application plus vaste. 

En étudiant le processus (6.1) nous avons en fait établi que les 
erreurs de calcul en © (|rx ||‘) sur le vecteur e, (voir (6.4), (6.5), 
(6.6)) et les erreurs de calcul en © (ft, || p, ||) sur le vecteur jf’ (2) 
(voir (6.16)) n’altèrent pas les propriétés (convergence, estimation 
de la vitesse de convergence) du processus (3.4). Dans la variante 
de (3.4) où r,41 = zr:+, — 7, les erreurs s’évaluent par des expressions 
différentes. On a donc dans (3.4) à partir d'un pas a; = 1 


ra = pra ze — 2 = Aka NZ ma | fall. 


Compte tenu de (1.12)on a [Ir, | > mim || zx — 7, ||. 

Si rats = Toy — 2h, les erreurs en O(||x,_, — x, ||) et en 
À (£x Ilzx — zx, |l) résultant du calcul des vecteurs e, et f, n'influent 
donc pas sur les propriétés du processus (3.4). 
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les méthodes du type gradient dans l’optique différente. Voir la bibliographie 
(très fournie) des ouvrages cités. 

La variante avec le pas choisi à partir de la condition (1.2) est proposée pour 
la première fois. 
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d’algèbre linéaire. On doit à W. C. Davidon [54; 1] une autre approche de la 
construction des méthodes des directions conjuguées qui s'appliquent cette fois 
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à la minimisation d’une fonction quadratique. L'idée de cet auteur a été déve- 
loppée par R. Fletcher et M. J. D. Powell [61] et par d’autres savants. 
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la formule (4.45) et la méthode (4.63). 

$ 5. R. Fletcher et C. M. Reeves [62] ont suggéré d'utiliser la méthode du 
gradient conjugué pour minimiser des fonctions non quadratiques. Pour la 
convergence de cette méthode et l’évaluation de sa vitesse voir J. W. Daniel 
{52; 1, 2], B. Poliak [28; 2], G. Maïstrovski [25; 1] [2], S. Smoliak [31]. La conver- 

ence de la méthode (4.48) et les estimations de la vitesse de convergence ont été 

tablies par M. J. D. Powell [94; 3] (ces résultats sont cités dans J. W. Daniel 
152; 1], E. Polak [93; 2]. La démonstration de la convergence des techniques des 
directions conjuguées suit Ÿ. Daniline [7; 1]. 

$ 6. Les méthodes des directions duales sans calcul de dérivées ont été exa- 
minées dans Ÿ. Daniline et B. Pchénitchny (8; 2]. Les méthodes des directions 
c<onjuguées ont intéressé entre autres C. S. Smith [97], M. J. D. Powell [94; 2], 
W. I. Zangwill (102; 1], J. W. Daniel [52; 1]. Les auteurs y ont puisé pour écrire 
le présent paragraphe. Un tour d'horizon des méthodes de minimisation sans 
calcul de dérivées a été fait par R. P. Brent [44]. 


CHAPITRE III 


METHODES DE RÉSOLUTION 
DE PROBLÈMES AVEC CONTRAINTES 


Le présent chapitre expose diverses techniques de minimisation 
de fonctions en présence de contraintes imposées aux variables. 
On commence par des méthodes de résolution du problème de pro- 
grammation quadratique qui constitue un problème auxiliaire dans 
divers algorithmes, puis on expose des algorithmes de résolution 
des problèmes de programmation convexe et non convexe. Partout 
où cela est possible on évalue la vitesse de convergence. 


$ 1. Problème de programmation quadratique 


On entend en général par problème de programmation quadrati- 
que la recherche du minimum d’une fonction quadratique avec 
contraintes linéaires. Ainsi, le problème de programmation quadra- 
tique consiste à minimiser 


f@=+( Cr)+(d, x) (1.1) 
sous les contraintes 

(a, r)—b; 0, ie JT, 

(a, )—b=0, ie. (1-2) 


IcixeE", a EE", iE JT US, dE E”, b; sont des nombres, la 
n X n-matrice C est symétrique définie positive, i.e. (x, Cx) >0 
pour tous les x et 7 et J° sont deux ensembles finis d'indices. 

La résolution numérique de ce problème se base sur la méthode 
du gradient conjugué dont l’idée principale est en l'occurrence la 
suivante. 

Soit x, un point vérifiant les contraintes (1.2). Dégageons de (1.2) 
les contraintes saturées. Elles définissent une face d'un ensemble 
polyédrique décrit par les inégalités linéaires (1.2). Trouvons le 
minimum def (x) sur cette face par la méthode du gradient conjugué. 
Ou bien le point obtenu est solution du problème proposé ou bien 
on peut passer à une autre face et la procédure reprend par le com- 
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mencement. Vu que la méthode du gradient conjugué minimise 
f (x) en un nombre fini de pas et que les faces sont en nombre fini, 
un tel algorithme converge au bout d'un nombre fini de pas. 


1. Opérateurs de projection. Soit maintenant Ÿ — 71] F9, et 
+ un sous-ensemble de J. Formons une matrice A+ dont les lignes 


sont les vecteurs a;, à € #, de sorte que c’est une matrice m X n, m 
étant le nombre d'éléments de #ÿ. 

LEMME 1.1. Si les vecteurs a;, i € Ÿ, sont linéairement indépendants, 
la matrice AyA% est régulière. 


DEMONSTRATION. Soit y € E” un vecteur non nul tel que 
À A EU = 0 (1.3) 
Alors 
y'AgAyy = (Azy) Avy =(A2y, Auy) = || A2y|P=0, 
1.e. 
à 7 — 
aU — 0. (1.4) 
Mais Ay est tout simplement une combinaison linéaire de vecteurs 
ai, i E #, à coefficients y', i= 4, ..., m, où y' sont les composantes 


du vecteur y. Etant donné l'hypothèse d'indépendance linéaire des 
ai, C7, Azy ne peut p as être nulle. Donc (1.4) et, partant, (1.3) 


dont elle est la conséquence, sont impossibles. Ainsi, la matrice 
AyA% n'annule qu’un vecteur nul, d'où sa régularité. 


Posons 
P= A7 (4442)! A. (1.5) 
On constate sans peine les propriétés suivantes de l'opérateur LP: 
PP=P, (1.6) 
PY=P, (1.7) 
P(I—P)=(1—P)P=0. (1.8) 


L'opérateur P est un opérateur de projection orthogonale dans 
un sous-espace engendré par les vecteurs a;, i € #. 
En effet, on a pour tout vecteur x € E” 
z=Prz+(l—P)x. 
Ensuite, 
(Pz, ( — P)zx) = (x, P* (| — P)zx) =0 
en vertu de (1.7), (1.8) si bien que Pzet (1 — P) x sont les composan- 
tes du développement orthogonal du vecteur x. De plus 


E Q 
Pr=Auu= D aui, 
F 4 
UT 
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où le vecteur u € E” de composantes u‘ est défini par la formule 
u = (444%) "Ag. 

L'expression obtenue du vecteur Pz montre qu'il est entièrement 
dans un sous-espace formé par les vecteurs a;, i€#. 

Notons maintenant que 


Aussi, quei que soit x € E”, le vecteur y — (1 — P)zx vérif.e-t-il 
le système d’équations Azy = 0. 
2. Minimisation d’une fonction quadratique sur un sous-espace. 


Admettons qu'on a à minimiser la fonction quadratiaue f (x) donnée 
par (1.1) avec les contraintes 


(a, x) —b;=0,iex. (1.10) 
Les vecteurs a;, i € #, seront supposés linéairement indépendants. 

Soit z, un point vérifiant (1.10). 

Notons que si on désigne par bz le vecteur de composantes 
b;, ie 7, le système (1.10) s'écrit Az _ be — 0 de sorte que 
Azïo — by—0. Introduisons une nouvelle variable y par la for- 
mule 

z=z9 + (1—P)y (1.11) 


et considérons la fonction quadratique 


p (y) = f (zo + ( — P) y). 
Comme le veulent les règles de dérivation d’une fonction composée 
et vu la symétrie de l'opérateur P, il y a entre les gradients de 
p (y) et f(x) la relation 


p" (y) = (I — P)f' (x), (1.12) 
avec x et y liés par (1.11). 


LEMME 1.2. Soit y ur point de minimum libre de la fonction @ (y). 
Le point correspondant 


z=10+(1—P)y 
réalise alors le minimum de f (x) sous les contraintes (1.10). 


DEMONSTRATION. En y le gradient de q (y) s’annule : œ’ (y) = 0. 
Par suite, on a en vertu de (1.12) 


(I — P)f'(x) =0, 


ou 
(2) — 4% (Ag A8)! Auf Ta) = 0. 
Posons u = — (434%) 7" Aagf (x), il vient 
f(x) + Agu = 0. (4.13) 
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On a de plus en utilisant (1.9) 
Auz= At + Ag (I —P)y=Agzo =by, 
ie. x vérifie les conditions (1.10). 


Ainsi, test un point admissible et on a en ce point les conditions 
(1.13) qui sont les conditions nécessaires et suffisantes pour que x 
réalise le minimum de f(x) sous (1.10). Le lemme est démontré. 

Le lemme 1.2 montre qu’on peut ramener le problème de ce 
numéro à la minimisation de la fonction quadratique @ (y) en l’ab- 
sence de contraintes. La recherche du minimum de œ (y) se fera 
par la méthode du gradient conjugué (ch. IT, $ 4):; 

Yo—=0, pi = —p(0), 
Yn+s = Yr + Ln+1PDh+t15 


IL @" (yx) If 
Pr+1 P (Yx) + Il p’ (y»-1) I2 Ph: 


Ici œx+1 Se calcule selon la règle 


a sr (p' (yn), PRh+1) 
di (Pris (1—P)C(1—P) Pres) ? 


car la matrice définissant le terme quadratique de (y) est de la 
forme (cela se vérifie aisément): 


([— P)C(I—P). 
Les formules ci-dessus définissent le processus par rapport aux 


variables auxiliaires y. Il y a cependant intérêt à passer en variables 
de départ x. Montrons au préalable qu’on a la relation 


(TZ — P) pr = Pr. (1.14) 
En effet, pour k = 1 


(T—P)pa= —(1—P) (0) = —(1—P)(—P)f (x) = 
= —(1—P)f" (70) = —®" (0) = ps, 
où nous nous sommes servis de (1.12) et du fait que 
(—P)({—-P)=1—-P—-(T—-P)P = I — P. 


Supposons la relation (1.14) vraie pour k# et démontrons-la pour # + 1: 


’ Î q’ (un) ll? — == 
([— P) pau = —(—P)q Ga) + oo D (ur _1) II (T—P) pe 


_ 9m), 
= —(1—P)(1—P)} (zx) + LP’ (ur) [2 Ph = 
 : _ ’ Il q” (yn) ]l2 = 

Eu (7 P) Î (zx) + I q' (yr_1) TE Pr PRr+i 


où nous avons une fois de plus utilisé (1.12) et (1.14). 
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La formule (1.11) entraîne maintenant 
Tp+1 = To + (1 — P) Yn+ss 
Zpa = Th + (TP) (Yates —Yn) = Th + (TL — P) Gh+iPr+ts 
1.0. 
Th+1 = Tr À Œn+iPht: 
La prise en compte de (1.12) permet de transformer la formule 
donnant Dp+1: 
ri , ILCZ —P) f(x) 1 
Ph+1 — (I P) Î (zx) + Il ({—P) f' (zx _1) [2 Pr: 
La formule pour &@;+, se récrit comme suit: 


((Z—P)f" (rx), Pret) _— (f (zx), PR) 
((1—P) prets C (I —P) Pr+1) (Ph+ts CPR) | 
THéoRëME 1.1. Connaissant un point zx, vérifiant (1.10) Le 
problème de minimisation d’une fonction quadratique f (x) avec les 


contraintes (1.10) est résolu en un nombre fini de pas par le processus 
Pa = —(l—P)f (to) 
Th+1 = Th + Œn+1Ph+1 


’ I—P) f' 2 
Prti= —(l—P)f Gen) + EE Ph 


Lp+1 —= — 


(f° (x). Ph+1) Lie 
(Ph+tr CPh+1) Fins 


La démonstration a été en fait effectuée plus haut lorsque nous avons 
déduit les formules du processus. 


REMARQUE. On sait (ch. II, $ 4) que si la méthode du gradient 
conjugué s'applique à une fonction quadratique de matrice C singu- 
lière, le processus converge en z — L pas au plus, où / est le nombre 
de valeurs propres nulles de C. En recherchant le minimum de 
q (y) nous avons eu affaire à une fonction de matrice (1—P)Cx 
X (1 — P). Mais comme Az (1 — P) = 0, i.e. (1 — P) AY = (0, 
on a ([— P)a; =0,i€ %#. Dans le cas considéré la multiplicité 
de la valeur propre nulle de (71 — P) C (I — P) est donc au moins 
m, m étant le nombre des a;, iE #. C’est pourquoi le processus 
proposé ou bien converge vers le point de minimum ou bien montre 
l'absence de borne inférieure de f (x) dans les conditions (1.10) au 
bout de #7 — m pas au plus. 


Apt = — 


3. Algorithme pour le problème général de la programmation 
quadratique. Reprenons le problème général (1.1), (1.2). Posons 


ÿ (x)={i: (&, 2)—bhi=0, ie UT) 


pour tout point x vérifiant (1.2). 
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Nous supposerons remplie la condition de non-dégénérescence : 
quel que soit zx, les vecteurs a;, i E% (x), sont linéairement indé- 
pendants. 

Décrivons l'algorithme de résolution du problème. 

Soit x, un point quelconque vérifiant (1.2) et constituant l'appro- 
ximation initiale. Prenons l’ensemble d'indices #, = # (x) et cons- 
truisons l'opérateur Py de 


1% en A%, Ag4%) Az 
Calculons les quantités 
Uo— — (43,4%) "As (zo), (1— Pæ,) f" (&) = f" (20) + A% jo. 


Deux cas peuvent se présenter. 
1) (7 — Po) f" (Zo) = 0. Alors 


f' (&0) +43, ue = 0, (4.15) 


et x, réalise le minimum de j (x) sur une face définie par le système 
d'équations 
(ai, z) — bà = 0, iE%o 


(voir ch. I, $ 3). 

Si le vecteur ui n'a pas de composantes u,, i € % (to) A Jr, 
négatives, le point x, est solution du problème originel (1.1), (1.2) 
car (1.15) sont alors les conditions nécessaires et suffisantes d'exis- 
tence d'un minimum de f(x) avec les contraintes (1.2). 

Admettons qu'il existe un indice j € # (xo) 1 J” tel que uÿ € 0. 
Construisons un nouvel ensemble d'indices #, en éliminant de #, 
l'indice j. Utilisons la méthode du gradient conjugué décrite au 
n° 2 pour minimiser f (x) sous les contraintes 


@, 2 —b=0, ie: (1.16) 


Le processus en question ne doit cependant pas quitter le domaine 
admissible (1.2). A chaque pas on effectue donc une vérification. 
On calcule 
7 ._ bi—(ai, rx) 
Œp4y = MIN ——" *<— 1.17 
ee i (aÿs Ph+t) 
où on minimise par rapport à tous les à pour lesquels (a;, px+,) > 0. 
Ici x, est un point de la suite générée par l’algorithme et p,+, la 
direction conjuguée en ce point. Soit maintenant @&z+, la grandeur 
correspondante du pas de Ja méthode du gradient conjugué. Si 


A+  Œh+3s AÏOTS Zhys = Tr + Qn+1Pr+1 et le processus continue. 


Si Gp+1 > his AÏOTS Tp+s = Th + Qr+1Pr+1 et l'algorithme s'arrête. 
Conclusion: ou bien on réalise le minimum de f(x) dans les 


conditions (1.16) ou bien le processus s’arrête quand @y+, > @n41. 


S1) PROBLÈME DE PROGRAMMATION QUADRATIQUE 141 


Dans les deux cas on initialise avec le point obtenu comme on l’a 
fait avec le point initial zx,. 

2) (1 — Pas) f' (0) # 0. 

Dans ce cas on résout par la technique du gradient conjugué le 
problème de minimisation de f (rx) sous les contraintes 


(a, 2 —b=0, i€#o (1.18) 


avec au départ le point x,. Comme plus haut on teste à chaque pas 
l’admissibilité des points obtenus, i.e. on calcule chaque fois &y4 
par les formules (1.17) et on applique l'algorithme tant que ou bien 
on ne réalise pas le minimum de f (x) dans les conditions (1.18) 
ou bien on ne vérifie pas la condition @z+1 > @:+, et on n'obtient 
pas le point Zh+1 = Tk + Gx+1Pn+1. Dans les deux cas on recom- 
mence avec ce point le même processus qu'avec zx. 

Justifions la convergence de la méthode en un nombre fini de 
pas et montrons tout d’abord que dans le cas 1) comme dans 2) on 
fait un bon pas, i.e. on se déplace de x, en un point en lequel la valeur 
de f (x) est strictement inférieure à f (x,). Du moment que les points 
sont générés par la méthode du gradient conjugué et que dans cette 
méthode la fonction décroît à chaque pas, la seule chose qu'il nous 
faut démontrer est que! toujours &:+1 >0, i.e. les contraintes (1.2) 
permettent un pas non nul suivant la direction choisie p4+,, et que 
dans 1) z,n'est pas un point de minimum de f (x) avec les contraintes 
(1.16) car, s’il n'en était pas ainsi, on ne se déplacerait pas du point 24. 

Démontrons deux lemmes auxiliaires. 


LEMME 1.3. Le vecteur p, = — (I — Pa) f" (to) est solution du 
problème: minimiser 
p GP) = (oh, P) + + Ip IE 
avec les contraintes 
A4, P = 0. (1.19) 
DEMONSTRATION. En effet, en vertu de (1.9) p, vérifie (1.19). 
De plus q"(p) = p + f' (x). Aussi 
P' (Ps) = pa + f (0) = — (1 — Ps) f (50) + f(x) = 
— Prf (o) = — À% Uo- 
Donc 
p' (P1) + 4%u0 = 0, (1.20) 


ce qui est une condition nécessaire et suffisante pour que la fonction 
convexe @ (p) atteigne son minimum en p, sous les contraintes 
(1.19), c.q.f.d. 
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Construisons le dual du problème de minimisation de  (p) 
avec les contraintes (1.19). Conformément aux règles du $ 3, ch. I 
on doit trouver pour cela le minimum de la fonction œ (p) + u*Aæ P- 
Dérivons par rapport à p et égalons les dérivées à zéro, il vient 
P % jf (to) a A%, u — O, 1.e. 


Pp = —Ÿ (x) — A%, U- 
Par substitution de cette expression de p on a 
Q 1 ? L 
min {p(p)+u*4gp}= — 7 1lj (ee) + Aÿu|P 


Ainsi, le problème dual consiste à trouver le minimum par rapport 
à tous les vecteurs u de la fonction 


Qu) = —— |] f" (x) + Agu |P. 


On vérifie aisément, en dérivant directement * (u) et en égalant 
à zéro les dérivées, que le vecteur 
uo = — (44 4% )A4, Î (&o) 

est solution du problème dual, i.e. il maximise q* (u). Rappelons les 
composantes de w,: ce sont ui, iC #0. Ainsi, le vecteur u, est le 
vecteur des multiplicateurs de Lagrange dans le problème de mini- 
misation de @ (p) avec les contraintes (1.19). On constate de plus que 
la valeur commune (aux termes des théorèmes de dualité) du mini- 
mum de  (p) avec les contraintes (1.19) et du maximum par rapport 
à u de q*(u) vaut 


— ZI ro)+ 48 moe où — +1 —P3,) f' (50) IP. 


LEMME 1.4. Etant donné une matrice Az: formée en biffant dans 
Az, la ligne d'indice j tel que u 0, et (I — Pa) f" (to) = 0, 


le vecteur p, = — (1 — Pu:) f' (x) est différent de zéro et (a, p} << 0. 
D£éMonsTRATION. Le vecteur p, s'écrit comme 
pi = — (f" (to) + 4% 0), v = — (4342) "AT (&o)- 
Si p1 =0, alors f’ (to) + Agsv = 0. D'autre part, 
(— Pa) f' (xo) = Ÿ (to) + 4%, uo = 0 (1.21) 


par hypothèse. On obtient après soustraction 
Aÿto— Agv = usa; + 2 (ui —v')a; = 0, 


ce qui, étant donné ui =£ 0, est impossible en vertu de l'indépendance 
linéaire des vecteurs a;, i € #o- 
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Démontrons la seconde partie du lemme. 
Récrivons (1.21) en coordonnées : 


f(x) + 2e + (— ui) (—a;) = 0. (1.22) 


Notons que —ui > 0 puisque ui < 0. 
Considérons le problème: minimiser œ (p) = (p, f’ (xo)) + 
+ 1/2 || p | sous les contraintes 
(ai, p)=0, iEC€Yo (1.23) 
ni (a, p) < O. 


Du moment que q’ (p) = f’ (ze) + p, on a p° (0) = f’ (x) et (1.22) 
est donc une condition nécessaire et suffisante pour que le point 
p = 0 réalise le minimum de œ(p) avec les contraintes (1.23). 


Par ailleurs, p, est, selon le lemme 1.3, solution du problème 
de minimisation de œ(p) en présence de contraintes Az:p = 0, 


ou, en coordonnées, 
$ (a;, p)=0, ie. (1.24) 


Admettons que (a;, p,) > 0. Le vecteur p, vérifiant les contraintes 
(1.24), il vérifie alors toutes les contraintes (1.23). Mais 


(Go), P)= —(f (ro), U— Pe;) f(x) = 
= —(Pæsf (ro) + — Pa) f (xo), (1 — Pas) f(x) = 
= —((1— Pay) f' (ge), (A — Pa) f (to) = — 1] Pi IE. 
Donc 


POP) = (Fe), Pi) + SP lE= — 5 Pi <O, 


ce qui contredit le fait que, dans les contraintes (1.23), la valeur 
minimale de œ (p) est atteinte pour p = 0et vaut 0. La contradiction 


ainsi obtenue montre que (a;, p,) << 0 et le lemme se trouve démontré. 

Voyons maintenant l'algorithme construit. Plaçons-nous dans 
le cas 1) et supposons que x, n’est pas solution du problème de pro- 
grammation quadratique. On applique alors, selon l'algorithme, 
la méthode du gradient conjugué pour minimiser f (x) avec les con- 
traintes (1.16). Conformément aux formules de la méthode le pre- 
mier pas est fait dans la direction du vecteur 


Pi = —( — Py;) f(x). 


En vertu du lemme 1.4, p, = 0 si bien que le point zon'est pas solu- 
tion du problème auxiliaire de minimisation que nous considérons. 
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Montrons que &, > 0. En effet, le vecteur p, remplit la condi- 
tion (1.24)et (a;, p,) << 0 conformément au lemme 1.4. C'est pourquoi 


(@, pr) < 0, à € Yo: (4:25) 
Si ié#o on a d'après le choix de l’ensemble ÿ, 


(a;, To) x bi < 0. 
Donc 
&= min Pi (air %o) > 0, 
i (a;, p1) 

car on ne minimise que par rapport à des à tels que (a;, pi) > 0 
ou, en fait, sur un sous-ensemble des à qui est disjoint, en vertu de 
(1.25), de #,. Or, pour ces i on a b; — (ai, ze) > 0. 

L'inégalité &, >> 0 montre que tous les points x, + œp, satisfont 
pour 0 < œ < &, aux conditions (1.2). En effet, pour i € #, 


(a, To + Gps) — bi = (a, Lo) —b; + a (a, Pr) = 
= =0, CT 0 
nn. p) = | <0 i=j 
et pour i6 Yo 
(ai, To+ aps) — bi = (ai, to) — bi + @(a;,p1) <O, 


si (a, pr) SO. Si (@&, ps) 0, alors 
a<a: Si = ter zo) 
(a;, Pi) 
et donc 
(a, To + Gps) —b; La, To) — bi + 


bj—(a;, zo) 


_ &;; D, = (0. 
(CIE P1) ( Ps) 


Notons que la dernière inégalité est stricte si aa ou & << 
bj—(a;, Zo) 
(a;, ps) =. 
Nous savons que deux cas peuvent se présenter: @, << &, et 
&1 > &- Dans le premier cas, on obtient un nouveau point zx, — 
= Zo + GP, qui vérifie les relations 


(a, +) a b; — 0, L € #0 (as, Zi) SE b; — 0, LÉTo (1.26) 
et dans le second x, = zo + @P, qu’on accepte pour un nouveau 


point initial où l'algorithme démarre en testant 1) ou 2). Ceci étant, 
z, vérifie, en plus des relations (a;, x;) — b; = 0, i € #;,, les égalités 


(ai, T1) — db; = 0 pour tous les ié #;, tels que er = Gi. 
&j, Pi 
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Ainsi # (x) = #,, et l'inclusion est stricte. 
Reprenons le cas &, << &,. L'’algorithme de gradient conjugué 
continue alors, et tant que œx+1 << &n+1, tous les points z44, satis- 


font aux relations (1.26) comme z, parce qu’en vertu de la formule 
(1.14) et (1.19) avec P — Py; 


Ay: pr = Au (T — Pu:) pr = 0, 
i.e. en coordonnées 


(a:, Pr) F— 0, iE #o- 
Les inégalités 


(a, zx) — bi; LO, ice, 


restent vraies elles aussi car, s’il n’en était pas ainsi, on serait dans 
le cas ax+1 > Qt: 

Ainsi, nous avons montré que dans le cas 1) le processus itératif 
génère la suite de points Z,, zx, . . ., zx, k>1, et que f (x) est 
strictement décroissante suivant cette suite du moment que celle-ci 
est formée par la méthode des directions conjuguées. Le point termi- 
nal z, ou bien réalise le minimum de f (x) avec les contraintes (1.16) 
ou bien est un point en lequel #, est strictement intérieur à # (zx). 

Dans le cas 2) la direction de déplacement à partir du point x, 
coïncide avec le vecteur p, = — (1 — Pa) 1° (to) Æ 0, (&i, Pa) = 0, 


CE Fo(= (# (xo)), et on démontre donc sans peine que &, > 0 et 
que la méthode des directions conjuguées permet de faire au moins 
un pas non nul vers le point z, en lequel la valeur de f (x) est stricte- 
ment inférieure. 

Toutes les démonstrations imitent celles que nous venons de 
faire. On aboutit à une suite de points xz,, z1, ..., æn, k > À, x, 
étant ou bien le point de minimum de jf (x) dans les conditions (1.18) 
ou bien tel que Ÿ (zx) = #o- 

Si x, réalise le minimum de f (x) sous (1.16), il rend minimale 
f (x) dans les deux cas sur une face définie par les relations 


(as, 2) — bi =0,ie# (x), (1.27) 


car par construction # (7) = #, dans le cas 1) et 7 (z:) = %, dans 
le cas 2) et un point qui réalise le minimum sur un ensemble plus 
vaste le réalise également sur un autre qui est plus restreint. 
Montrons qu'avec au départ un point x, on aboutit après un 
nombre fini de pas à x, qui réalise lui-même le minimum de f (x) 
sous les contraintes (1.27). En effet, l'exposé précédent autorise 
à dire que si la méthode du gradient conjugué ne résout pas le pro- 
blème de minimisation, cela entraîne de suite une extension de 
l’ensemble des indices à tels qu’un point généré vérifie les relations 
(a;, zx) — db; = 0. Les vecteurs a;, i E Ÿ (xx), étant linéairement 


10—01608 
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indépendants par hypothèse, cette extension cesse évidemment au 
bout de nr pas au plus, où nr est la dimension de x. 

Ainsi l'algorithme proposé construit en 7 pas au plus un point 
zx qui réalise le minimum de f (x) sous les contraintes (1.27). 

Notons que les ensembles } (x) diffèrent pour ces z4 différents 
parce que la valeur de f (x) décroît monotonement suivant la suite 
construite. En effet, soient x,, et z,, m << k, deux points de mini- 
mum de f(x) avec les contraintes 


(az, x) — b; —= 0, 


IE (Zm) et iE Y (zx) respectivement. Si Ÿ (2») = # (au), il est 
clair que f (th) = f (xx). Mais par construction f (x) << f (x,) pour 
m > k, d’où l'impossibilité de l'égalité # (zx) = # (zx). 

D'autre part, tous les ensembles # (x,) font partie de l’ensemble 
J = JT) et ils sont donc en nombre fini. Il s'ensuit l'arrêt du 
processus proposé après un nombre fini de pas. Or, l'arrêt ne peut avoir 
lieu que si l’on a trouvé le minimum de f (x) sous les contraintes 
(1.2) car, dans le cas contraire, le processus peut continuer comme 
nous l’avons montré plus haut. 

Cela signifie que le processus converge en un nombre fini de pas. 


REMARQUE. Dans le cas de C singulière il peut arriver. selon 
la théorie des méthodes des directions conjuguées, que (f (x:), 
Pr+1) # 0 au point zx, mais (Px+1, CPn+1) = 0. Il est alors impos- 
sible de calculer &;+, car 


__ (f(x), Ps) 
(Pn+tr CPhet) | 


Puisque dans ce cas f (zx + œ&pzx+1) décroit indéfiniment avec la 
croissance de &, on peut poser &r+, = + et conduire les calculs 
comme d'ordinaire. Si &x41 < + l'algorithme de gradient conjugué 
aboutit au point Zsys = Tr + Œn+1Pr+1, Ce qui ne contredit nuile- 
ment les raisonnements ci-dessus. Si @z+, n'est pas borné. i.e. 
(ai, Pn+1) & 0 quel que soit i, le déplacement suivant la demi-droite 
Tr + &Pr+1 entraîne une diminution indéfinie de la fonction } (x). 
Ce fait signifie que le problème posé de la programmation quadratique 
n’admet pas de solution parce que la borne inférieure de f (x) sous 
les contraintes (1.2) vaut —co. 


Œh+1 — 


&. Aspects numériques. L’algorithme proposé plus haut comprend 
en fait une seule opération compliquée, à savoir la projection du 
gradient sur un sous-espace, i.e. le calcul de (7 — P) jf’ (x). Ce 
calcul se fait de deux manières. 

La première façon d'agir consiste à calculer directement la 
matrice P+, i.e. Pæ — Aï (4343 )'Az auquel cas on a à calculer 
sans cesse [A matrice (444%) . Si celle-ci est connue, la recherche du 
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vecteur nécessaire u = — (444%)""Aæf(x) se ramène à multiplier 
la matrice par le vecteur. 

Pour réduire le volume de calcul à chaque pas lorsque l’ensemble 
# varie, on utilise le fait qu’en chassant de # l'indice jÿ la matrice 
AA% se trouve privée d’une ligne et d'une colonne, ce qui engendre 


la matrice Ay'A%r. De même, si l’on adjoint à un indice, on voit 
As A3 s'enrichir d’une colonne et d’une ligne supplémentaire. Cela 


permet d'utiliser les relations récurrentielles connues de l'algèbre 
linéaire (D. K. Faddeev, V. N. Faddeeva [57]). A savoir, soit B 
une matrice xz X r symétrique qu'on peut mettre sous la forme 


D u 
s=(e ): 
u® b 
où D est (nr — 1) X (n — 1), u un (n — 1)-vecteur-colonne, u* son 
transposé, b un nombre. On vérifie aisément que 


D-tuu*D-1 Du 
UP ocre 
ce u*D-1 1 , 
&œ ” (6 à 


œ = b — u*D”iu. 


Ainsi, connaissant D”!, la matrice B”! avec B obtenue en complé- 
tant la dernière colonne et la dernière ligne se calcule facilement. 
Inversement, si Bt! s'écrit 


pin (° : 
p* mJ° 
on a pour D”! 
D'i=G—PP., 
m 


Si la nouvelle matrice s’obtient donc de l’ancienne par suppres- 
sion de la dernière ligne et de la dernière colonne ou, au contraire. 
par adjonction de la dernière ligne et de la dernière colonne, les 
matrices inverses sont trouvées moyennant de simples opérations 
arithmétiques. Le fait de biffer ou d'ajouter dans les formules écri- 
tes la dernière colonne et la dernière ligne ne joue aucun rôle car une 
permutation de lignes d’une matrice conduit, on le vérifie sans peine, 
à une permutation de colonnes de son inverse et une permutation 
de colonnes à celle de lignes. 

Nous avons donc montré que la matrice de projection peut se 
calculer par des formules de récurrence. Le défaut de tels calculs 
est une accumulation éventuelle d’une grande erreur de calcul. 

Et voici une autre façon d'effectuer les calculs. 


10* 
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D'après le n° 3, le vecteur p, — — (1 — Pz) f' (x) est solution 
du problème : minimiser (f’ (x), p) + . | p | avec les contraintes 


Asp = 0. Il ya intérêt à passer au problème dual qui consiste, on 
l'a montré, en la maximisation de la fonction quadratique 


— 11 fe) + Av |f 


par rapport au vecteur v en l’absence de contraintes et qui se résout 
sans peine par la méthode des directions conjuguées. Sa solution 
est (voir n° 3) le vecteur uy = — (4#42 )'Aaf (x), i.e. le vecteur 
utilisé dans l'algorithme de résolution du problème général de 
programmation quadratique. Le vecteur p, en fonction de u, est 
obtenu facilement par la formule 


po= —(l—Pz)f(x)= —1f" (z)— 4% (434%) 1 Ag (2)] = 
= —([f (z) + Azul, 
1.0. 
Po = — [f" (x) + Auol. 
Ainsi, en calculant de cette façon, le problème se ramène à une 


application à plusieurs reprises de la procédure standard de la 
méthode des directions conjuguées. 


5. Problème de programmation quadratique avec des contraintes 
simples. Le problème avec des contraintes simples est: minimiser 


f(a)=+ (x, Cr) + (à, 2) 


sous les contraintes z° > 0, i € Ÿ, où Ÿ est un sous-ensemble de 
{1, 2, ..., n}. L'algorithme du n° 3 se simplifie alors considérable- 
ment. Au lieu de le simplifier formellement, formulons l'algorithme 
de résolution du problème proposé. Nous constaterons que la démons- 
tration de sa convergence en un nombre fini de pas coïncide avec 
celle de l’algorithme du n° 3.  . 

Soit donc x, un point arbitraire vérifiant les contraintes zi > 0, 


j € J. Posons 
de or J (x) = fi: x =0, ie TJ}. 


Décrivons les opérations à une itération à partir de z,. Calculons 
l’ensemble % (x,). Deux cas peuvent se présenter : : 

4) (f! (to))' = 0, ié 7 (to), où (’ (xe))* est la i-ième compo- 
sante du vecteur f” (x). 

Dans ce cas x, réalise le minimum de f (x) dans les contraintes 
xt =0,ie# (x). Si de plus (f (xo)) 0 pour iE # (x), alors 
x, est solution du problème car on a en ce point les conditions néces- 
saires et suffisantes de minimum (voir ch. I, $ 3). 


$s2 METHODE DES DIRECTIONS ADMISSIBLES 149 


Soit maintenant (f’ (xo)) < 0 pour certains i € # (x). Posons 
= {GE (to): 0 (&)) > 0}. 


Trouvons le minimum de f (x) par la méthode du gradient conjugué 
: prenant comme variables les seuls z', ié #’, et en laissant 


2 = 0 pour iE #’. Avec cette méthode on a à calculer toujours @,+1: 


z} 
Qp+ — min (- 5 ; 
i Le 
où le minimum est réalisé par rapport à tous les if Y', tels que 


Pis <0, et on compare œ+1 et Guise Si Ge ur AlOrS x ti, = 


= Zi + @nnPis1 167" Thai © 7 = 0, ICT. Si CBELTITT alors 
ai 4 = 2 + GRaiPh 4 LÉ Yi 2,,=2—0,i€#". Le processus s'ar- 


rête après un nombre fini de pas et on trouve un point zx,:, tel 
ee f (x) atteint en ce point son minimum dans les conditions 


= 0,ieÿ, ou tel que Gn+1 > CIS Dans ce casÿ (zx) = = Ÿ’, 
a l'inclusion est telle qu'il existe des iE # (zx), mais i é #". Dans 
l’un et dans l’autre cas le processus recommence avec z;::, au 
départ. 

2) Il existe des indices à tels que (f’ (x.))' Æ 0, ié #Ÿ (to). On 
minimise alors f (x) par rapport aux variables zx‘, i€ # (xo). par 
la méthode du gradient conjugué, les composantes zx, i € * (x), 
étant toujours nulles. De plus, on calcule à chaque pas (comme 
pour {)) la quantité 


i 
_ | Th 
Œp+1 = min ss i , 
ë Ph+1 7 


où l’on minimise par rapport à tous les ié% (xo), Par << 0. Le 
processus se termine comme dans le cas 1 

On voit aisément qu’en raisonnant comme au n° 3 on démontre la 
convergence de l’algorithme en un nombre fini de pas ou on établit 
l'absence de borne inférieure de f (x) dans les conditions r° > 0, 


i ET. 
S 2. Méthode des directions admissibles 


Il s’agit d'une des premières méthodes de résolution du pro- 
blème de programmation convexe. 
On demande de minimiser f, (x) avec les contraintes 


Ïi (x) < 0, L — 1, .... M, 


Ici EE", fi (x), i = 0, 1, ..., m, sont convexes et admettent 
des dérivées continues, À est une matrice L X m et b un l-vecteur. 


150 MEÊTHODES DE RÉSOLUTION DE PROBLÈMES AVEC CONTRAINTES [CH. III 


Nous supposerons de plus que les gradients des fonctions f; (x), 
i — 0, 1, ..., m, satisfont à la condition de Lipschitz 


li Ga) — fi (ma) I LCA — 2 || (2.2) 


et || jf; (x) | < À pour tous les points x qui intreviendront dans la 
suite. 


Désignons par D un domaine admissible, i.e. l’ensemble 
D = {z:f;i(2)<0,i—=1,..., m, Az — b = 0}. 


L'ensemble D sera supposé compact si bien qu'on a la condition 
de borne des gradients. Soit x, un point de D. Trouvons une direc- 
tion p € E" telle que, pour & petits, (x, + ap) E D et fo (xo + ap) < 
< fo (Zo)- Une telle direction est dite admissible. En faisant un 
pas &, dans cette direction on trouve un nouveau point zx, = Zo + 
— &1p € D. Le processus recommence à partir de z,. Nous devons 
maintenant élaborer une technique efficace de recherche de direc- 
tions admissibles et de choix du pas & de façon à garantir la conver- 
gence vers le point de minimum. 

La condition de non-dégénérescence suivante est supposée remplie 


partout dans la suite: il existe un point x tel que 


Ar—b=0,f;(r) <0,i—=1,...,m. 
1. Méthode du choix d’une direction admissible. Posons 
Js (2) = {i:fi(æ) > —6, i—1,...,m} 


pour tout point x € D. Soient E; > 0, i = 0, 1, ..., m, des nom- 
bres quelconques. Considérons en tout x € D le problème suivant: 


min n, 


(fi (x), p) < Bin, à € Ts (x) U {0}, 2.3) 
Ap =0, |plil< 1. | 
[ci n est un nombre et || p || une norme arbitraire. Pour que (2.3) 


soit un problème de programmation linéaire, il est commode de 
prendre pour norme 


IL pi1= max | p°|. 
1<i<n 


Soit pa (x), n4 (x) une solution du problème (2.3). Comme le 
vecteur p = 0, n — 0, vérifie les contraintes (2.3), il est clair que 
ns (x) L 0. Montrons que si ns (x) << 0, alors p, (x) est une direc- 
tion admissible. 
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En effet, soit &« >> 0. On a pour i — 0 conformément à la formule 
de Taylor 
fo(z + aps (x)) = fo (2) + & (fo (80); Ps (t)) = fo (x) + 
+a(fo(x), ps(x)) + (fo (80) — f(x), pe (2) 
<fo(r) +a (f(x), ps (x)) + °C | pe (x) 1°, 
où Œ—=z<+EÉuaps (x), 0LÉoL 1, et nous avons utilisé l'inégalité 
Î1 fo (80) — fo (x) SCI Bo — x IS Ca pe (x) 11. 
Ensuite, (fo(x), ps (x)) <Eons (x) en vertu de (2.3). Donc 
fo (x + aps (x))< fo (x) + aEone (x) + &2C |] ps (x) 12. (2.4) 
On a de même pour iE Js(x) 
fi (x + ape (x) < fi (x) + aEine (x) + «°C || ps (x) |° (2.5) 
et pour iéJ3(x) 
fi (a+ apo(x))= f(x) +a(fi(@), pe(x)) fe: (2) + ak |] po (x)Il. (2.6) 
Choisissons maintenant un a > 0 tel qu'on ait les inégalités 
fo(z + ape (x) fo (2) + + on (x), 
fi(x+aps (x) 0, iE Ji (x), (2.7) 
fi(z+ aps (2) O0, 6 Ts (x). 
Il suffit pour cela d’avoir les inégalités 


1+ RP, Em +aCllps(nIPSO, 2€ TE (2). 


—0+aK|| ps(x) ISO, 6 TS (x), 
puisque, par suite de (2.4), (2.5), 


fo (+ ape (2) < fo (2) + abone (2) [ 1 + QUEUE |, 
fi (z+ ape (2)) << fi (x) + a [Eine (x) + aC I] pa(z)|FI, € Ja(x). 
et comme f;,(1z)< —Ô pour iéJs(x), on a 
fi + aps (x) < —6 + ak || ps (x) I|. 
On obtient à partir de (2.8) 
4 __Eons (x) Bin (2) ô 
2 Cllps(z)lE ” Cl Ps (x) * K || ps (x) [1° 


Si & vérifie les inégalités (2.9), on a donc les inégalités (2.7). 
Vu que Aps (x) = 0 et donc À (x + aps (x)) — b = Az — b - 
+ &Ap;a (x) = 0, il en résulte que p,4 (x) est effectivement une 


(2.8) 


aZ — az — az (2.9) 
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direction admissible. Montrons à présent que si x ne coïncide pas 
avec la solution zx, , le point de minimum de f, (x) dans le domaine D, 
alors ns (x) << 0 pour tous les & suffisamment faibles. 


LEMME 2.1. Six CD n'est pas solution du problème de minimisa- 
tion de fo (x) avec les contraintes (2.3), alors n4 (x) << O pour tous les 
Ô suffisamment petits. 


DEMONSTRATION. Rappelons que nous supposons remplies les 
conditions de non-dégénérescence, i.e. il existe un point x tel que 
Az—b=0,f;(1) <o,i=1,...,m,o<0. (2.10) 

Soit x, solution du problème. Si 


Js(=ti:fi(@) =0, i=1,..., m}, 


alors pour ô 6, 
— Üo = max fa (x), 
16 J'otx) 
Js(z) = Js(xz). En effet, si iEJa(r), 8<60, alors f(x) > —6. 
Mais pour tous les ié JS (x), f1(7) < —  . 6, i.e. iEJ,(x). Nous 
admettrons ô << ô, de sorte que J3 (x) = JS (x). Posons 
Zo=Pz+(1—p)r,, 0<p<1. 
Les fonctions f;(r), i—0, 1,..., m, étant convexes et f;(r,)<0, 
i—1Â,..., m, on a alors 
fi (zp) PJ: (x) +(1—p) f(x) <P0, i= À, -..s M. 
Ensuite, f,(z)—0 pour i€ Js(x) et donc pour 0<A1<1 
ApO > À fi (to) = À fi (Go) + (1 —D) fi (2) 2 fi (A9 + (1 — À) x) — 
=fi(z+A(m—z))—fi(z) ZA (Ti (x), To — 2), 


où nous avons utilisé l'inégalité (ch. I, $ 2) vraie pour toute fonc- 
tion convexe dérivable : 


fu) — f(x) 2 (x), y — 2). 
6 >(fi(x), to — +), i € J5 (x). (2.11) 
Puisque le point x ne réalise le minimum de f (x) dans D,on a 
0% = fo (te) — fo (x) > (fo (x), zx — 2). 


Donc 


D'où 
(fo (x), zo—2)=p(fo(x), z—zx)+(1—p}(fs (x), re —2)< 
<p(fi(x), T—z)+(1—p) +. (2.12) 
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Il découle de (2.11) et (2.12) que, pour des p > 0 suffisamment 
petits, 


Go (x), po) 0, Gi (x), Po) 0, à E Ts (x), (2.13) 


avec P, = Z, — zet où on a tenu compte de & < 0, y << 0. Posons 


Po= Po si IP, 1 1 et Pp = Po__ si IP,U> 1 de sorte 


Il Pp Il 


que || po | 1. Posons de plus 


(fi (z), Pp) 


o— MAX E 


ie 8 (x)U(0) 
Par suite de (2.13), n, << 0 et on a les inégalités 


(Fi (x), Po) < Emo, à € JS (x) U {0}, n° <O0. (2.14) 
Comme x, = pz + (1 — p)z, et 
Az —b=0, Ar, — b = 0, 
on a 
Az, —b = 0. 

Notons que p, = aps =a@(z, — x), où 0 << ai. Aussi 

App + (Az —b) = a (Az, — b] + (1 — @œ) [Az — b] = 0. (2.15) 
Il résulte de (2.14) et (2.15) que le vecteur p, et la quantité n, véri- 


fient les conditions (2.3). Du moment que n, << 0, on a a fortiori 
no (x) < 0 car ns (x) L N, par définition. Le lemme est démontré. 


2. Algorithme de la méthode des directions admissibles. Soit 
zo € D une approximation initiale quelconque et ô, > 0. Décrivons 
le pas général de l’algorithme. Admettons qu’au k-ième pas on. 
a obtenu un point z, € D et 6, > 0. 

En résolvant le problème 


min 1, 
(fi (2x), p)< in, ES (2) U {0}, 
Ap=0, || p||<1, 
nous trouverons ps, (zx) = Pr et no, (zx) = 1x: 


REMARQUE. Si l'on prend pour norme du vecteur p la quantité: 
max |p‘]|,le problème ci-dessus est celui de programmation linéaire- 
î 


.] 


qui se prête à une résolution par une technique standard. 
Deux cas sont possibles. 
1) na << —Ô4. 
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“On pose successivement œ = i = 0, 1, ..., et on trouve le 
premier à vérifiant les inégalités 


1 


fo (an +5 Pa) Lola) + — 


2.210 


Enr ’ 


fi E us 


20 pr) <0; IL : 2; mt. 


1 
Posons ir et Ta+s = Th F ORPDhr Ori = Ôn, de sorte que 


Jo (Lr+1) To (Tr) + : QEonk (2.16) 
fi (Ze) SO, i=1,..., m. 


2) WmZ> —Ôx. 


1 
Posons Zyr1— Zn, Ônx1 = cu Ôx- 


Dans le premier cas on arrive donc en un nouveau point et dans 
le second ce déplacement n’a pas lieu. 

Enonçons la condition d’arrêt de l’algorithme: si à un pas k 
-on à Ôg << Ô° (z:), où 


Ô(zx) = — max f;(2) 
18 TJ tx,) 


-et nr = 0, alors z, est solution du problème posé, i.e. c'est le point 
de minimum de f,(x) avec les contraintes (2.1). 


3. Justification de la convergence de, l’algorithme. Montrons 
-que si la suite x, s'arrête à un pas k parce que la condition que nous 
venons d'’énoncer est remplie, zx, est effectivement solution du 
problème. En effet, admettons que nous avons n4 = n6, (24) = 0 et 


Ô, <O°(zx) = — max f;(x). (2.17) 
16 J 0x3) 


‘Or, nous avons constaté en démontrant le lemme 2.1 que, s’il y a 
(2.17), ve,(rx) << 0 à condition que z, ne soit pas solution du 
problème. Etant donné que n, — 0 par hypothèse, il en résulte que 
x, réalise le minimum de f, (x) pour x € D. Supposons maintenant 
que le processus itératif se poursuit sans fin de sorte que nous avons 
une suite x, infinie, 4 = 0, 1, ... Soit x, le point en lequel n, << 
<< — 6}, i.e. on est dans le cas 1). En utilisant les estimations (2.9) 
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et [| pr || = || pe, (xx) | < 1, on peut dire que si les inégalités 
1 
a<—+ SL , 
ag—Îth, 16), (2.18) 
Ôk 


Où Ja = J5, (xx) pour simplifier l'écriture, sont justes, on a (2.7): 


Jo (Tr + px) << fo (Zx) ++ GEon»; 
Ï (zx, + ap:) 0, 1, cc.) M. 


Rappelons que, conformément à l'algorithme, &z coïncide avec la 
première quantité 4/2*, i = 0, 4, ..., qui vérifie les inégalités 
(2.16). Conséquence: les inégalités sont satisfaites après un nombre 
fini d'essais. 

Soit i, le premier indice qui vérifie ces inégalités si bien que 
& — 1/2ÿ, Cela signifie que (2.16) n’ont pas eu lieu pour &œ = 1/27 
et la quantité &« n'a pas vérifié (2.18), i.e 
À Eonn On in \ 

ef 


, min— 


= >nin {— DRE 


got 
Donc 


1 1 20 Eonk Ôk . UE 
M= > TZ min { — 2C ? K min}. (2.19) 
k 


Vu que dans le cas considéré —n, >> 6;, on renforce (2.19) en rempla- 
<ant —n, par 0. On obtient de ce fait 
Gin > JE Ep, & = min (=, u, E, …. Se). (2.20) 
Utilisons (2.16), (2.20) et nr << —6ô, < 0, il . 
fo (Za+3) < fo (tx) ++ bone € fo (Zn) — 0 68. (2.21) 
Il en découle Ô;, —+ 0 pour À — «. En effet, la suite H=0:"1: 


Ld AR e 1 e e 
décroît monotonement, et, si 041 << Ô,, alors Ôy41 = 5 dk si bien 


que Ô, + 0 ne signifie qu’une seule chose, à savoir que ô, — 8 0 
pour tous les À suffisamment grands. Mais si Ô, reste constant, on 
a la condition 1, << —6, et donc l'inégalité (2.21). 

Ainsi, pour tous les # suffisamment importants (k > k,), 6, — Ô 
et 


fo (tr) & fo (rx) — EE 82. 
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C'est pourquoi 


fo (Ex) < fo (Tho) —(N — Ko) 2. 67, 
i.e. fo (Tx)—> —o quand V — œ, ce qui contredit la propriété 
d’une fonction continue f, (x) d’être bornée dans un domaine com- 
pact D. 

Ainsi, ô, —> 0. Or, cela signifie que ô, initial est divisé par deux 
un nombre infini de fois, i.e. le cas 2) : n: > —6k, a lieu un nombre 
infini de fois. 

Soit Ÿ l’ensemble desindices 4 pour lesquels on a eu 2). On a alors 
nr — 0 lorsque À —+ 0, k E Y. Cela résulte de suite de l'inégalité 
—0x < x: EL 0 et de la tendance vers zero de 6,. Considérons une 
suite de points z, ED, kE‘Y. D étant compact, on estime, sans 
restreindre la généralité, que z.fconverge vers un point z,. Montrons 
que cette limite est le point de minimum de ÿ, (x) dans D. 

Supposons par l’absurde que x, ne réalise pas le minimum de 
fo (x) dans D. On dit alors, d’après le lemme 2.1, que, quels que 
soient Ô << 65 (z4), | 

Oo (T4) = — max ji (xs), 
1€ J otxe) 
Ji(r)—=J5(z,), et la quantité m(r,)<0. Il y plus: comme 
Js(r.)= JS (x), on a ns(x,) = 10 (7,) <0. Ensuite, Ja, (x) = T5 (x4) 
pour des k€ suffisamment grands. En effet, soit iG J5(x.). Alors 
fi(xz.) 0. Par suite de 6, —0, on a donc f;(x,) <<—6x pour Æ 
suffisamment élevés, et, comme 7, —+ x, f; (71), k grand, est également 
inférieur à — 64, i.e. € Ja, (21). Ainsi, si i@ JS (z.), alors i@ Ja, (xx) 
pour # importants, ie. Js,(x)=J;(x,). Du moment que par 
hypothèse zx, n'est pas un point de minimum de f(x) dans D, il 
existe un vecteur p(z,) tel que Ap(z,)=0, || p(z,)||<1, 
(fi(z.), p(z) <Emo(z.), i ETS (z,)U {0}, 


de plus, comme on l’a déjà dit, w(z,)<<0. Mais on a alors par 
continuité pour À grands 


(fa), P(R) STE), 1€ TE U {0}, 
Ap (zx) = 0, Ip (x) 111, 


parce que 1 —+>7,, Jr = J; (x,). Ces dernières relations signifient 
cependant que 


1 
a = 0, (x) << M (ze) <O0 


pour tous les À suffisamment grands, ce qui contredit mx — 0, 
k — +oo, k E ‘#, fait établi plus haut. La contradiction obtenue 
démontre que rx, réalise le minimum de f, (x) dans D. 
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THEOREME 2.1. La suite de points x, construite par la méthode 
des directions admissibles jouit de la propriété que, sans croitre de 
façon monotone, fo (xx) tend vers f, (x,), où x, est un point de minimum 
de fo (x) dans le domaine D. 


DEMONSTRATION. Par construction de la suite {zx,} fo (Zr+1) & 
< fo (xx) de sorte que la suite de nombres f, (x;) n'est pas monotone 


croissante. Puisqu’elle est minorce, elle possède une limite /,. 
Nous avons cependant dit qu’il existe une suite partielle {x,}, 
kE #, telle que r,— xz,. Donc f, (x,) — f (x,). Comme une suite 
convergente et sa sous-suite tendent vers une même limite il en résulte 
Lo (tr) —+ fo (zx), c.q.f.d. 


REMARQUE 1. Il y en a parmi les contraintes jf, (x) < 0 pour 
lesquelles les fonctions f, (x) sont linéaires. On montre sans peine, 
à force de développer un peu les raisonnements ci-dessus, qu’on peut 
poser £;, — O0 pour de tels indices i. 

Il est possible de plus d’affaiblir la condition de non-dégénéres- 


cence, à savoir il suffit d'exiger l'existence d’un point z€ D tel 
que f; (x) < 0 dans le cas des seuls i pour lesquels f, (x) sont non 
linéaires. 


REMARQUE 2. La suite x, même peut en général ne pas conver- 
ger, mais si x, est l’unique point de minimum de f, (x) pour x € D, 
on constate aisément que x; —+ x,. La vitesse de convergence de la 
méthode des directions admissibles reste malheureusement une 
question ouverte. 


&. Construction de l’approximation initiale. La méthode des 
directions admissibles ne s'applique que si l’on connaît la valeur 
de l’approximation initiale dans le domaine D. On obtient celle-ci 
par les directions admissibles pour le problème de minimisation 
du nombre n sous les contraintes 


fi(@)—n<0,i=1,...,m, A4z—b=—0. (2.22) 


Vu qu'il existe un point x tel que 


f:(&) <0,i=1,...,m, Ar—b=0, 


dans les contraintes ci-dessus la valeur minimale de n est strictement 
inférieure à Ô et après un nombre fini de pas on trouve un point « 
et un nombre n tels que n < 0 et les inégalités (2.22) soient vérifiées. 
Cela signifie que le point x ainsi obtenu satisfait aux contraintes du 
problème originel et qu'on peut le prendre pour point de départ 
dans la méthode des directions admissibles. 
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$S 3. Méthode du gradient conditionnel 
et méthode de Newton 


La méthode du gradient conditionnel est utilisée pour minimiser 
une fonction non linéaire dans un domaine où le minimum d'une 
fonction linéaire s'obtient sans trop de peine. 

Soit f (zx), x € E”, une fonction continüment dérivable dans un 
domaine convexe compact Q. Nous supposerons que le gradient 
f' (x) de f (x) satisfait dans Q à la condition de Lipschitz, i.e. 


LP Cr) —f G@) NE Le — 2 (3.1) 


pour tous les points de Q. 

Décrivons la méthode proposée que nous appellerons méthode du 
gradient conditionnel. 

Connaissant z,, l’approximation au k-ième pas du processus 
itératif, on calcule f’ (x,) et on trouve le point de minimum de la 
fonction linéaire (f’ (x,), z) dans Q. Soit z(x,) ce point. Posons 
Pn = 2(tr) — Tr et Zh+y = Ta + GxPr, Où &x > 0 est la longueur 
du pas dans la direction p;. On recommence avec le point z41 
au départ. 

Nous montrerons plus bas qu'en calculant «x, par une règle 
déterminée il y a convergence, et nous évaluerons la vitesse de con- 
vergence. On traitera les mêmes questions pour la méthode de Newton 
dont la différence de la technique décrite est que la fonction à mini- 
miser est approchée à chaque itération par une forme quadratique 
(l’approximation est linéaire dans la méthode du gradient condi- 
tionnel). 


1. Règle régissant le choix de la longueur du pas. Soit x un point 
quelconque de Q et soit z (x) un point de minimum de (f’ (x), 2) 
dans Q tel que 


(f(x), 2 (x) L (° (x), 2), 2 € 2. (3.2) 


Posons p (x) = z (x) — x, 
n(e)= min (f(2), 2—2)=(f' (2), p (2) 


En vertu de (3.2), n (x) < 0. Nous voulons évaluer l'accroissement 
de la fonction lorsqu'on se déplace du point x dans la direction p (x). 
Utilisons la formule de Taylor et (3.1), il vient 


f(z+ap(x))=f(2)+a(f (6), px) =f(2)+ 
+a(f(a), P(a)+a(f(8)—f(x), PK ()+ 
+an(z)+aLlp(zx)[P, où 6—zx+Eap(z), OKE<1. 
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Ainsi, 
f(x + ap (x) < f(x) + & (n (x) + aL || p (x) IP). (3.3) 


Il en résulte de suite que pour 


_ 110 | 
ST TPE 59 
on a l'estimation 
< an (x) 3 
f(z+ap(n)<f( +2. (3.5} 


2. Description de l’algorithme. L’algorithme débute avec un 
point arbitraire x, du domaine Q. Décrivons le pas général. 

Supposons zx; déjà construit, * > 0. Après avoir résolu le problème 
de minimisation de (f’ (xx), z) dans Q calculons z (x4), p (x), 
n (zx). Construisons le point zi41 — 2: + &x p (x), avec ax sup- 


posé égal à 2-0, i, étant le premier indice i = 0, 1, ..., pour 
lequel on a l'inégalité 
fau + pm) (mn) + 2 210). (3.6) 


La condition d'arrêt est la suivante: le processus s'arrête sitot 
que n (xx) = 0. 


3. Justification et évaluation de la convergence de l’algorithme. 
En vertu de la règle gouvernant le choix du pas que nous venons 
de citer, on a l'inégalité 


f (re) ST (mn) + LE), (3.7) 


Pour justifier la convergence il faut montrer en premier lieu que 
les inégalités (3.6), (3.7) ont toujours lieu. En effet, en vertu des 
formules (3.4) et (3.5), l'inégalité (3.6) est vérifiée dès qu'on a 
9-1 4 n (zx) 
ET LNp(x) fe ? 
et comme ài, est le premier indice pour lequel (3.6) est juste, 
90, = 27 Go-1) _1 __n(æ) 
k FT LNPGN IE” 
d’où 
41 _—n(zx) | 
RP TL rene GE) 
Cela entraîne que si n (z:) 0, l'inégalité (3.6) est vérifiée au 
bout d’essais en nombre fini et &; choisi satisfait à (3.8). 
LEMME 3.1. Sizx,, k — 0, 1, . .., est une suite de points générée 
dans l'algorithme de gradient conditionnel, alors z, € Q, f(x.) est 
monotone décroissante et n (x,)—>0 pour k—> +00. 
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DemonsTRATION. Soit x, € Q'pour 4 < m. Montrons que zu+1 € Q. 
En effet, 0 < a" 1 et z (x) € Q. Aussi 
Tm4i = Tm + EmP (Zm) = Tm + Em (2 (Zm) — Tm) = 
= (1— Qm) Tm + Am£ (Zm) EQ, 


de domaine Q étant convexe. 

Notons que || p (xx) || est borné par une constante C parce que 
P (zn) = 2 (tx) —,zn, 2 (tn) € Q, zx E Q, et ( est un compact. Utili- 
sons les formules (3.8), (3.7), il , 


fn) — << — _— T (zx). (3.9) 


La sommation par rapport à tous les À — 0, 1, ..., m — 1 donne 


m—1 
f(zm) —f (2) < — er 2 m (za). 


Comme le domaine (© est compact et f ” continue, on a f (Zn) > 
avec f, la valeur minimale de f (x) dans Q. Donc 


m1 
D D (2) SBLC?(f (20) — f (Em) LELC? [f (zo) — fl. 
k=0 

La dernière inégalité entraîne la convergence de la série 


> T (zx), 
Rk=0 


ce qui n’est possible que quand n (x;) — 0. Le lemme est démontré. 
Les conditions d'arrêt de l'algorithme et les hypothèses du 
lemme impliquent que dans le cas général ou bien l'algorithme 
s’arrête après un nombre fini de pas et l’on a la condition n (x;) = 0 
ou bien on obtient une suite monotone décroissante de valeurs f (x;) 
de la fonction f (x). 
Dans le premier cas, n (z,) = 0 équivaut, en vertu de (3.2), à 


(f' (zu), zx) = (ax), 2 (ax)) K (ax), 2), z € Q. 


La dernière relation n’est autre qu’une condition nécessaire de 
minimum de f(x) en z, (voir ch. I, $ 3). 
Le second cas fait l’objet du 


LEMME 3.2. En tout point limite de la suite z,, k = 0, 
on a les conditions nécessaires de minimum de f (x) sur l'ensemble Q. 
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Soit x, un point limite de la suite x,, i.e. il existe une suite par- 
tielle xx F j — ©, telle que z: 3? Te. On a les relations suivantes: 
Nm) = (ra) Z(tr,)—2n)), 
(f (zh); Z (a) <(F (z,), z), Z € 2. 

On estime sans restreindre la généralité que z (x,,) 72, Comme 
n (z:) —-0 et f’ (x) est une fonction continue de zx, ces relations 
entraînent 

(f' (z4), Ze — Ty) = 0, 

( (xs), 24) < ( (xs), z), Z (Se (2. 

(F (ts), Te) LU (tx), 2), 7 E Q, 


ce qui démontre le lemme. 


D'où 


TH£OREME 3.1. Etant donné une fonction f(x) convexe, on a 
Lim f (x) = 


où fx = mur f (x), et l'estimation 


C 
f(m)—f LT, 
avec C une constante positive. 
D£MONSTRATION. La convexité de f (x) détermine la validité de 
l'inégalité 
f,—f()=f()—-f(R)2z (f(x), x —-2)2> 
> min (f(x), 2—2)=n (a). 
Ainsi, OSf(z)—f,< —n(x). Quel que soit k, on a donc 
OK f(x) —f,< —n(x). (3.10) 


Le lemme 3.1 entraîne n (x:) —- 0. Aussi la dernière inégalité montre 
que f (zx) fx, ce qui démontre la première partie du théorème. 
Réunissons (3.9) et (3.10), il vient 


(Cœur) — fa) —(f (mr) — 1) — 50e U (er) — fl 


En notant @;, = f (zx) — f, nous obtenons 


Pat Pa (1 _ aie= | 
ou 
1 
Parti Pa (1 —XPx), = C - 
11—01608 
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Posons maintenant = nous avons 
Mau Et __, VR 
ut < (1x À.) (3.14) 


ou 
Vh#1 BL x (k+1)Yx 
Va: LUN k? 


Pour tout À deux cas se présentent. 


F . 
1) REA, ie NE 


DVR+1 
2) Ÿh — 


A 
Alors =—— x —— y: > 0, ie! 
E 


1 dk 1 
aval 74 Pa T <%° 
On obtient à partir de (3.11) 


FVh+1 TZ k+1e 
im STE 2 


pour # > 1. On ne peut seTplacer alors que dans deux situations 
suivantes. 


1) I1 existe un nombre fini d'indices tels que; y < + . En 


vertu de ce que nous avons dit, la suite y, ne croît de façon monotone 
pour aucun # grand, i.e. elle reste bornée. 


2) Il existe une infinité d'indices # tels que y; < _ . Nous dési- 


gnerons par # l’ensemble de tels k de sorte que y, <— : — pour kE +. 


Soit j é #. On peut trouver alors deux indices #,, k, E + ÿ, tels que 
k, <Lj<k, et kEY pour! tous les k, < k << k.. “Alors 


2 
Vki+1 < 2 PE 
et Y:#1<7Y, quels que soient i—k;+1,..., k:—1. Donc 
2 inc 
MS, j&rr 


Nous avons donc montré que la suite est également bornée par:une 
constante C. Il en résulte 


C 
Lex = PASS 


ce qui achève la démonstration du théorème. 
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HCette estimation révèle une convergence pas trop rapide de 
l'algorithme. Il est vrai qu'il s’agit de la majoration, ce qui fait 
espérer une vitesse plus grande. Or, cela ne se passe malheureusement 
pas ainsi dans le cas général. Selon Cannon et Cullum [47] l’estima- 
tion obtenue est précise s’il s’agit de minimiser une fonction convexe 
sur un polyèdre. 


4. Evaluation de la convergence dans le cas d’un domaine forte- 
ment convexe. Soit Q un domaine fortement convexe, i.e. il existe 


un nombre 6 >> 0 tel que, quels que soient x, y € Q, les points EI + 


+ w appartiennent à ( pour tous les w vérifiant || w || < 8 || x —y|F. 
Alors 


— (x), OS Lo 
n(a)=min(f (a), 2—2)< min At (a), EE +u—z)< 


<+ (f(x), 2(2)—2)—86z(z) —zlP If (il. 


D'où 
Ln(o<—6lf (I: 2, 
ou 
+ me E>slf ll 342) 


TH£EOREME 3.2. Si f (x) est une fonction convexe, S un domaine 


fortement convexe et || f" (x) [|| > &0 >> O0 quels que soient xE Q, la 
méthode du gradient conditionnel converge en progression géométrique, 
ie. || Zn — zx | CG, Qo € 1. 


DEMONSTRATION. On obtient à partir " (3.7) et (3.8) 
Pa — Prat = (Rx) —f (mu) 25 DT - 
Utilisons (3.12) et (3.10), . vient 
Pr —PhuZ TT + 6e (— 1 (2)) > Je Pa: 
c’est-à-dire 
qu S (1 — €) qu. 
Donc 
Pr" Pos 9=1— ro < 1. 
En vertu des conditions nécessaires et suffisantes de minimum, 
(Fa), z — z,) 2 0. 
11° 


164 M£ETHODES DE RESOLUTION DE PROBLÈMES AVEC CONTRAINTES (CH. III 


On a donc pour tous les w, || w || < Ô || z — zx, |f, 
(F (Ze) 2 =. +w—z,)>0, 
d'où 
s( (z,), z —2,) ZÔz— 2x, | If (2) |. 
Mais || f” (z,) ||  & et, par suite de la convexité de f (x), 


Î (x) EE Î (z,) Z ta (z,), ZT — Te). 


On a:finalement 


f(x) — f(2,) > 26e, || x — x, l. (3.13) 

D'où 
1/2 1/2 
las l<()  o2< (SE) 2). 

Notons 

__{ Po 192 . Ôeo \1/2 

C=(5) q= — 7) , 
il vient 

Tr — 2, | & Cat, 

c.q.f.d. 


5. Méthode de Newton à pas variable. Considérons le problème 
de minimisation d'une fonction convexe régulière f (x) sur un ensem- 
ble (convexe, compact) £. 

On le résout moyennant le processus itératif 


Thti = Th + RPhs En > 0, (3.14) 


où la direction de déplacement p;, = z; — z, est solution du problè- 
me de minimisation sur Q de la fonction quadratique 


Va (2) = (f” (zx), 22) ++ (f(x) (z—z;), Z— 23), 


et où l’on prend pour «, la plus grande valeur du paramètre & obte- 
nue par fractionnement à partir de &« = 4 et vérifiant l'inégalité 


f (tr + œpn) — f (xx) ec (zx), 0 <e <1. (3.15) 


Le choix de a; peut s'effectuer d'une autre manière (comme on l’a 
décrit au $ 2, ch. II, procédés (11.2.2), (II.2.3)). 

Nous verrons que dans des conditions déterminées la convergence 
de la méthode de Newton est soit superlinéaire soit quadratique. 
Dans le cas où la recherche du minimum'de 4 (x), x € , ne présente 
pas de difficulté, l'efficacité de la technique proposée s'avère donc 
considérable. 
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6. Propriétés de la méthode de Newton. 


THeoresME 3.3. Si l'on recherche le minimum d'une fonction 
convexe deux fois continüment dérivable f (x) sur un ensemble convexe 
fermé borné $ par la méthode (3.14), où «x et p, se définissent comme 
décrit ci-dessus, alors (pour tout choix de l’approxzimation initiale 
z0 EQ): 

4) f(x») est monotone décroissante ; 

2) lim Î (an) = f(x.) = as f (x). 


D£MONSTRATION. Une fonction continue 1,4 (rx) admet bien un 


point de minimum x, (peut-être non unique) sur le compact Q (théo- 
rème de Weierstrass). Quel que soit k, le point x,+, appartient à Q 


parce QUE Za+1 = Th + Qu (TR — 2x) = Gntn + (1 — ax) 2 et ax € 
€ [0,1]. Etant donné la convexité de 4 (x), on a x (tr11) = 


— y (Guzn + (1 — ax) 2x) Kana (tn) + (1 — ax) Yr (zx). Mais 
Ÿr (zx) = 0, donc 
Dr (Tnt) Lande (Te). (3.16) 


Utilisons la formule de Taylor et (3.16), il vient 
a? 
Ÿ (tres) — f(x) = Ÿr (tas) + (FrPns Pr) < 


3 IF INT Pa 1 - 
L'ERŸr (x) (1 + —= 2 pC) }» (3.1 i) 
avec Fy = f" (tre) 1" (zx), The = Tr + 0 (Zn — zx), 0 € (0, 1]. 


Il s'ensuit que si 4, (z:) = 0 (auquel cas 4» (zx) << Yr (zx) = 0), 
on a pour un certain &; > 0 


1+% on NANNPRÈS (3.18) 
Ya (zh). 


et, partant, (3.15), ce qui démontre la possibilité de choisir ax 
de façon décrite. 


L’inégalité (3.15) entraîne f (z:+:) < f (zx). Montrons que Y, (xs) 
tend vers zéro pour k# —> co. La fonction continue f” (x) est bornée 
sur ( fermé borné: || f” (x) | < M. Par conséquent, || F, || < 2. 


Le vecteur p, est borné lui aussi : Il pr 1 max || z — y 1e "à, 
=. x, vEQ 
Supposons que, quel que soit k, x (zx) < —B << 0. Alors 
Fa Il Pe |] M d° 
a+ INR 4 0 
Ya (x) FRE 


et l'inégalité (3.18) (et donc (3.15)) a manifestement lieu dès que 


a = MB = C>0. Ceci étant, il découle de (3.15) que 
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f (Zh+1) — f (x) L — eCB pour tout k, ce qui contredit la propriété 
de la fonction f (x) d'être minorée sur le compact Q. 

Ainsi, on n'a Yx (2Z1) L —BP que pour certains , i.e. W4 (zx) —0 
au moins pour À —+ co. Cela signifie que tout point limite de la suite 
(3.14) vérifie une condition nécessaire (et suffisante, f (x) étant 
convexe) de minimum de f (x) sur l’ensemble Q (voir ch. I, $ 4). 
Si l’on en tient compte, la démonstration de la dernière affirmation 
du théorème! s’effectue comme dans le théorème 3.1. 

Le théorème 3.3 montre qu’à la différence des problèmes de 
minimisation sans contraintes où la méthode de Newton ne joue que 
pour des fonctions fortement convexes, on peut l'appliquer, grâce 
au caractère borné de ©, à une fonction convexe. Il n’est pas moins 
vrai que cette méthode est particulièrement indiquée quand il s'agit 
de minimiser des fonctions fortement convexes, car c’est alors qu'elle 
a une convergence très rapide. 


THLOREME 3.4. Si, dans les conditions du théorème 3.3, f (x) 
est fortement convexe, i.e. 


my <(f(z) y y <MIyIPË, m>0,zEQ, y EE”, (3.19) 


la suite (3.14) converge vers la solution et la convergence est superli- 
néaire (autrement dit, on a l'estimation (I11.2.5)). 


DEMONSTRATION. L'existence et l’unicité de la solution du pro- 
blème considéré découlent des résultats généraux du $ 3, ch. I. Le 
point 2, vérifie la condition nécessaire de minimum de Ÿ, (x) sur Q 
($ 4, ch. Î): 


(px (Ta), Ta — Tr) K 0, 


1.e. 
_ (' (an), Zn — 22) + (f (æx) (tx — 2x), Th — 2) K 0, 
(f' (zn), pr) < — (7 (zx) Pr, Ph). (3.20) 
Par suite de (3.20) et de la première estimation (3.19), 
Pa (2x) < — Il pr |P. (3.21) 
Reprenons (3.17) avec cette estimation : 
f (ant) — f (xx) L'on (2x) (1 re SIP | (3.22) 


Comme ‘44 (zx) 0 (théorème 3.3), (3.21) entraîne || px || ——0 
quand # —> co. Il en résulte, vu la continuité uniforme de la dérivée 
seconde f” (x) sur Q, que || F; || —0. Ceci étant, il découle de (3.22) 
qu’à partir d'un À — N,(e) l'inégalité (3.15) est satisfaite pour 
ar = À, i.e. la méthode (3.14) devient la méthode ordinaire de 
Newton à pas unité. Quand #4 > N,(e), on a, compte tenu de la 
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convexité de 2 (x), 
Pa (2x) = Pat) > (f (ax), Tart— 2x) = 
= (f (Zn), Tres — 22) + (f (as) — (tn), Trri — 2). 


La transformation du dernier produit scalaire par la formule de 
Lagrange généralisée (ch. I, $ 5) et certaines autres transformations 
donnent 


Pal(zx) = (F' (zn-1) + P'(Tn-1) (Zn — Tu), Ti — 2x) + 


+ (DO, (zn— Zn), Zn —2x), (3.23) 
où 
D = Pt + 01 (Zn — Zn)) — f(zx-1), 0  [0, 1]. 
Notons que (f’ (Tr -1) + f” (Tr 1) (Ze — Zi), LTh+1 — Th) = 


= (ÿi-1 (Th), Th+a — 2x). Comme r-1 (2x) = es YŸr-1 (Z), On a, 


quel que soit z E Q, (bi (zx), z — xx) > 0 (une condition néces- 
saire de minimum). On a donc (bi, (zx), Tn+r, — 72) > 0 et (3.23) 
entraîne 


— Hp (2x) KI Où [Ta — 2a-4 [1 La — Tres || = On 1 Pa-aflfill pa Îl. (3.24) 
Comparons les estimations (3.21) et (3.24), il vient 


21[O 
TÉPREN CESSE 


| Th — Th Il. (3.25) 
f” (x) étant uniformément continue sur {, on a ||®, || 0. Il 
existe donc un nombre À (e) tel que À — SPA <'1 pour 
k > N (e). Posons Il LN — Lan-1 Il — Én 1 7 À — V > C. Alors 


i—1 
z—zvul< D Urnu—zl< 
k=N+ 


LCihvdes + ee Anvee (1 + Anece + Agt +  HANGHTI)S 
<= hÀv .. Ànvkt —= Ch ... Àn+r- 


C; 
1—ÀN 


Par conséquent, || z; — zy+: || —0 quand à, ! —> 0, i.e. la suite 
{z.}sest fondamentale et, vu la complétude de l’espace £”, possède 
une limite zx, € Q, et 


Tate — Ze CA NA EE: + + + Ant (3-26) 
En vertu du théorème 3.3, lim f (zx) = f (z,) = min f(x). 


+ x € 
Ainsi, la suite (3.14) converge vers la solution et, selon l'esti- 
mation (3.26), cette convergence est superlinéaire. Le théorème 
est démontré. 
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Si la dérivée seconde f” (x) vérifie sur Q la condition de Lipschitz 
de constante, R, l'inégalité (3.25) prend la forme 


Il Lh+4 — Th Il LT Il Th — Lh-1 FE (3.27) 


Notons B, — is Il Ta+s —{zrËll Comme || zi+1 — zx || 0, il existe 
un nombre L (e) tel que B4 << 1 pour k > L (e). Compte tenu de:(3.27) 
on a, quand k > L, 
Br SPAS +. KPÉ TT. 

Donc, quel que soit i= L+l, 1=—0, 1, 

ii 

IlEce — zzH ll D I Trta — Th ES DR S paie > B:". 
k=L+ k=L+l 

Puisque x, —{r,, on a || rcu— 2] = lim zzH—zill, ie. 


lern—zil 37 D Bi". 


Ts! 


estimation qui S'écrit encore (étant donné la [convergence fde la 
_ s 
série D'PË 
s= | 
st 
] TLH — Le | CBL , C< 00 «| 
Cette estimation signifie qu'on a le 


THEOREME 3.5. Si, dans les conditions du’ théorème 3.4, la 
matrice f” (x) vérifie sur l'ensemble la condition de Lipschitz de 
constante R, la convergence de la suite (3.14) (avec «4 et px choisis de 
façon décrite ci-dessus) vers la solution est quadratique. 

Voyons maintenant les propriétés de la méthode de Newton 
lorsque «,; est choisi à partir de la condition de minimum de j (x) 
dans la direction de déplac” nent. 

On ne saurait dans ce cas raisonner comme sur l'évaluation 
de la convergence dans les problèmes sans contraintes ($ 2, ch. II) 
parce que la seconde estimation (11.1.11) n'est plus valable. 


LEMME 3.3. Si on a à minimiser une fonction f (x) vérifiant les 
conditions (3.19) et si, dans la méthode (3.14), «4 est choisi à partir 
de la condition 


f(x + Gps) = min f(x, + ap:), (3.28) 
0<a<i . 


alors zx x, et ax +1 pour k —+ 00e 
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DEMONSTRATION. D'après la formule de Taylor, 


f (xs) — f (an) = où (Ÿ' (ax), Pa) + À (P' (ze) Pas Pa) 


Pour «,; vérifiant (3.28) le second membre considéré comme fonc- 
tion de la variable & doit atteindre son minimum. Si l’on prend en 
considération les estimations (3.19) et (3.20), on se convainc donc 
sans peine que 


1>a v(f' (zx), Ph) “m|| Pr NE 
> — M || px (2 > MIm IE — 


Ainsi, &«, > C > 0 et on démontre comme pour le théorème 3.3 


que 4 (zx) — 0, ï.e. la suite (3.14) avec «&, choisi à partir de (3.28) 
converge vers la solution. Ceci étant, || p, | 0 et || F, || 0 
(théorème 3.4). 

Montrons que ax —+> 1: 


F(an+1) = Va (Grx1) + (FrPrs Pa) = Va (2x) + 
(pi (2x), Zn) + Lu (zx) (Zn+1— 2x), The —Tÿ)+ 


+ À (Fra, Pu)- 
Etant donné que z,41—2: —(@;—4Â)px, on a 
f (rues) = a (2x) + (bi (a), Tati — 23) + 
LUE as) pa, Pa) + À (Fapas Poe 


Notons que  (Wi (zx), Zur — 2x) 0 et  (bf (2x) Pa, px) = 
— (f" (tx) Ps Pa) Z m || pa |. Par ailleurs, (F;px, px) = 0 (|| ps [f) 
(du moment que || F4, || 0 quand || p4 || 0). Le minimum de la 


différence f (zx+1) — YŸx (zx) a’est donc atteint que lorsque &; —+ 1; 
dans le cas contraire, on aurait 4 — a, > B = 0 pour tout k et 


f (n+1) — bn (&x) = O (I pr |?) > 0 tandis que, lorsque & = 1, on 
a f (zx) — Ÿh (zx) = _ (Fxpr, Pr) = 0 (|| px [), ie. pour un k 
suffisamment grand on aurait nécessairement f (z:) << f(zrx+1), ce 
qui contredit la condition de choix de &,. Le lemme est démontré. 


THeoREME 3.6. Si f (x) est une fonction vérifiant les exigences 
du théorème 3.4 et le paramètre «; est choisi dans la méthode (3.14) 
à partir de la condition (3.28), alors zx x, est superlinéaire. 
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DEMONSTRATION. En vertu des estimations (3.16) et (3.21) 


= , _ a? 
Pa (Zat) San ba (rx) LA Dr (ER) < — © M || Pa |Ëe 


Ÿr (Tr) < — _. | Tara — Ta Île (3.29) 


D'autre part 4 (zs+1) > (f (tn), Tn+a — Tr) = (tr), Tata —Tns) + 
+ (f (zx), Zn-1 — 2). Puisque x, réalise le minimum de f (x) dans 
la directionYr, — z-y, On à (f’ (zx), zn-1 — 7) > 0. Par suite, 


(zx) >(F' (tx), Tnti — Tr) = 
= (f (Ta), Th+s — Zn) + (f d (zx) — f (Zn-1), The — Ty) 


Exprimant le dernier terme du second membre moyennant la for- 
mule de Lagrange pour les opérateurs, on obtient par certaines 
transformations 


Va (Zn) (PF (ns) + PT (mnt) (Æn — T1), Zas — 1}4) + 
+ (D(Zr — Zu); Tres — Ty), 
où Of" (tra +0 (zx—zu))—f" (zu), BEI0, 1], Vu que 
Th — Thu = Ep (Tn-1 — Tr), il se trouve que 
Va (Za+1) > (F (tas) + F (1) (a — Ly1), Th+i — Th) + 
+ ((œus — 1) f (zx) (Tr — LT) + D (Tr — Zn); Tnt — Th-1)e 
Comme 
Pat (Zr-1) = Min Yx-1 (7), 
xeQ 
on à (bi-1 (2-1), Tru —2) LO quels que soient zEQ (une condition 
nécessaire de minimum). Par conséquent 
(Pi-1 (Zh-1), Tan — Th) = 
= (f" (zh) + F (2x1) (T1 — T1) » Th — Tn41) KO 
Compte tenu de cette ane établissons l’estimation 
1—1,% 
Va (Zk+1) > ( (aitr f" (zx) + Dr , (Zk — Zh1), Thw — Ty ). 
D'où, en notant ||[(@s-1—1)/@s1] f" (zr-1) + D || = des 
— Da (Zn+s) La || Ta — Ta || |] Tax — Ts IE 


br — 281 | (Tati — Ta + Zr1 — 22 |l).° 
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Rappelons que 


= 1— k 
Th-1 — TR — 


-1 
Th — Th 
An (za k-1) 


et notons [(1—@-1)/@-1] br = Cr, il vient 


— nr (Zat1) dx I Th — Th-1 [ ] Th — Th [ + Cr I Th — Th=1 If. 
Puisque &,—>1, || p,1|—0 (lemme 3.3), on à b; 0, c, 0. Com- 
parons l'estimation obtenue et (3.29), nous avons 


I Tata — 2 PE [Te — Zn ] Zatt — La | + 02 1 Tr — Ta IP, 


2b 2c 
En Pr = —+ 


m m 
Résolvons enfin l'inégalité quadratique obtenue par rapport 
à || Zi+i — 2 ||: 


Tnt —2a ua Tr — 21 ||, 


= E3 
b=S$+Y +p;—0 pour k—+ 00. 


La démonstration ultérieure imite celle du théorème 3.4. 


avec 


$ 4. Méthode du plan sécant 


La méthode du plan sécant est destinée à résoudre les problèmes 
de programmation convexe. Son idée fondamentale est la sui- 
vante: le domaine admissible est approché par un polyèdre qui 
diminue d’un pas d'’itération à l'autre et approche toujours mieux 
le domaine admissible dans le voisinage de la solution. 

La méthode s'applique au problème de programmation convexe 
de la forme: minimiser f, (zx) — (c, x) avec la contrainte 


f (x) < 0, (4.1) 


où f (x) est une fonction convexe continue. 

Le fait que la fonction à minimiser f, (x) est linéaire et que la 
contrainte (4.1) se réduit à une seule inégalité ne joue pas un grand 
rôle car si le domaine est donné par plusieurs inégalités 


fi (x) < 0, i=1,..., m, (4.2) 
1 (x) étant convexes, ce système se récrit comme (4.1) en posant 


f(x) = De RCE 
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Dans le cas de f, (x) convexe mais non linéaire, on introduit une 
coordonnée supplémentaire z°** et on ajoute l'inégalité 


fm+a (Z, T7) = fo (x) — 2% K 0 


au système (4.2) pour se ramener à la minimisation de la fonction 
linéaire x"*! dans les contraintes (4.2). Le problème sera donc abordé 
sous forme (4.1). Avant de passer à l’algorithme même rappelons 
que a est un vecteur d'appui à f (x) au point zx, si f (x) > f (zo) + 
+ (a, x — x,) pour tous les z. Les résultats du $ 2, ch. ÎÏ entraînent 
la non-vacuité de l’ensemble de tels vecteurs en tout point de l'espace 
pour une fonction convexe continue. 


1. Algorithme. Soit 
= {z:f (x) <0} 


un domaine admissible non vide. Supposons de plus que est com- 
pact et qu’il existe des vecteurs ax, k = —!, — (1 — 1), ..., —1,0, 
et des nombres b, tels que le domaine 


S = {z:(ax, r) — br LO0, k = —1, ..., 0} 


soit compact et contienne (2. 

Lorsque # => 0, les approximations successives s’obtiennent selon 
la règle suivante. Posons S, = S. Si S, est déjà construit, x, est 
une solution quelconque du problème de programmation linéaire : 
minimiser fo (x) = (c, x) pour æE S,. La construction du domaine 
suivant Sy+, obéit à la règle 


S'uti = {Z: (@n+as T) — dass KO} N Sx, (4.3) 
avec a+, un vecteur d'appui à f (x) en 2, et 
br+1 = (an+1s Tr) — f (an). (4.4) 


Il résulte de (4.3) que Sr+1 € Sx et, quand k > 1, 
Sx={x: (a, x) —b;<0, 
j=—1,..., —1,0,...,k—1}. 
LEemmE 4.1. Quels que soient k>1,omnaQcs;,. 


(4.5) 


DEMONSTRATION. Soit x E Q, i.e. f (x) L 0. Alors 
fG@) > f(x;-2) + (as, x — tjr) = (as, x) — b; 


et donc (a;, x) — b; < 0, j = 1, ..., k. Quand j < 0, les dernières 
inégalités sont satisfaites en vertu du choix de a; et b, pour j < 0. 
Le lemme est démontré. 

Le lemme 4.1 implique de suite 


fo (Zo) < fo (En) <see fo (En) fo (Entry) Le. 
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D'autre part, si z, est un point de minimum de f, (x) dans Q, alors 
fo (Ta) K fo (Z,), car Sx = Q. 


THesoR£ME 4.1. Etant donné une fonction f (x) convexe continue, 
un domaine Q compact et un nombre K tel que, quel que soit zx E€S, 
le vecteur a qui est, s'il existe vecteur d'appui à f (x) en x vérifie 
l'inégalité ||a||< K, tout point limite x, de la suite zx;, 
k — 0,1, ..., est solution du problème (4.1) et f (x,) 0. 


DEMONSTRATION, Puisque S, = S, Sx = Sh+,, la suite z, tout 
entière appartient au compact S et elle possède donc toujours des 
points limites. 

Notons à présent que si f (x,) < 0 pour un 4, alors z, E Q et, 
partant, fo (xx) > fo (z.). Nous avons as cependant montré que fo (Tr) 
< fo (z.)- Ainsi, 1 fo (zx) = fo (Ze), i-e. zx est solution du problème 
originel. 

Supposons la suite x, infinie et f (z,) >> 0 pour tous les k. Démon- 
trons f (xx) 0. Admettons le contraire. Il existe alors un nombre 
r > 0 et une suite partielle d'indices k (notons-la Ÿ) tels que f (x;) > 
> r, k ET. On estime, sans restreindre la généralité, que Zx ZX, 
k L 7, du moment que la suite zx, est élément d’un ensemble com- 
pact. 


Soit maintenant k et j € Ÿ et k > j. Le point x, vérifie alors 
par construction l'inégalité 
(apris Zn) — 0j = (ayra, Ta — x3) + f (x) KO, 
d’où 
Î (æs) < (aÿ+as T5 — 2ù) <'K | z; — 2 ||. 
Mais la suite x, k€ J, a pour limite x, aussi || z; — x, || & r/(2K) 


pour tous les k et j suffisamment grands, de sorte que f (x) < r/2 
pour j importants, ce qui contredit f (x;) > r, j €: 7e 


Ainsi, on a établi que f (zx) tend vers zéro. Soit x un point limite 


arbitraire, ji.e. x, —>x, k € Ÿ, où J est une suite partielle d'indices. 
Etant donné la continuité de f (x), 


f (&) = lim f (+) =0, 
RE 


ie. x € Q. Par ailleurs, fo (zx) & fo (z,) et donc fo (x) & fo (ze): 


d’où il découle de suite que fo (x) = fo (Z,) et que x est également 
une solution du problème (4.1). Le théorème est démontré. 


2. Aspects numériques. L’algorithme de plan sécant exige qu’on 
résolve à chaque pas le problème de programmation linéaire : mini- 
miser fo (Z) = (c, x) dans les contraintes 


(a;, x) — by LO, i — —1, , k. (4.6) 
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Ainsi, le problème augmente de volume d'un pas à l’autre. On utili- 

se de même toujours plus de mémoires pour conserver les vecteurs a;. 

Le problème (4.6) se résout plus simplement si l’on passe à son 
k 


dual qui s'écrit en l'occurrence: maximiser — ÿ, u‘b,; dans les 
is 


contraintes 


k 
2 u'a+e=0, ui>0, i=—}, ...,k. 
pe 

En l’abordant par la méthode du simplexe la solution de ce 
problème sert de solution admissible} pour le problème suivant. 
C'en est également une bonne approximation si bien que le nouveau 
problème est résolu au bout d’un nombre faible d'itérations. 

On a à chaque pas à calculer a;,, qui est un vecteur d'appui 
à f (x) en z,. Rappelons (voir ch. Ï) que si f (x) est une fonction 


dérivable, alors a+, — f’ (2x1). Mais si f(r) — max /;(x), on 
1<i<m 
prend comme a;+, tout vecteur de la forme D fi (æ), 
1€ 7x2) 
où À; > 0, à M = 1, (ax) = Ki: fa (ax) = f (an), 1<i<m}; 
1 X} 


en particulier, on peut poser a+, = f; (x:), avec i n’importe quel 
indice de 7 (x). 
Les règles que nous venons de citer découlent du $ 2, ch. I. 


3. Remarques terminales. Notre exposé de la méthode du plan 
sécant suit l'article de J. E. Kelley [81]. On connaît plusieurs 
variantes de cette technique (consulter p.ex. E. Lévitine et B. Po- 
liak ([22]). I] paraît que toutes ces mises en œuvre n’améliorent 
pas la propriété qui nous préoccupe, à savoir la vitesse de conver- 
gence, qui n’est pas exactement! évaluée pour la méthode exposée 
mais qui à en juger d'après Kelley n'est même pas géométrique. 


$ 5. Méthode de linéarisation 


Nous allons considérer une méthode de résolution du problème 
général de programmation mathématique sans faire des hypothèses 
sur la convexité des fonctions. Son trait distinctif est de prendre 
en considération des contiaintes non linéaires de type égalité, ce 
qui constitue une difficulté insurmontable pour la plupart des 
autres méthodes. 

Soit à minimiser une fonction fo (x), x E E”, sous les contraintes 


hi (a), iEÏT, fhi(2=0, ie, (5-1) 


avec Ÿ- et Ÿ° deux ensembles finis d'indices. Supposons que toutes 
les fonctions f; (x) admettent des dérivées continues. (Les conditions 
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du problème seront précisées plus bas.) Par linéarisation de f; (x) 
en z remplaçons au point z, toutes les contraintes (5.1) et f, (x) 
par leurs homologues linéaires. On obtient un problème de program- 
mation linéaire. Il serait naturel d’imiter la méthode de Newton 
pour des systèmes d'équations non linéaires et de prendre pour appro- 
ximation suivante la solution du problème linéarisé. Cette voie 
telle quelle ne conduit malheureusement pas au but parce que le 
problème auxiliaire de la programmation linéaire ne possède en 
général pas de solution. On impose donc certaines contraintes? à 
l'accroissement du vecteur x au point x, de façon que la solution 
du problème linéarisé en ce point ne s'en éloigne pas trop et reste 
dans un voisinage de z, où la linéarisation est valable. Nous le 
ferons ci-dessous par adjonction d'un terme quadratique à la fonc- 
tion économique linéarisée. 

Notons que toute égalité f; (r) = 0 équivaut à deux inégalités 

fi (x) KO, —fÿ; (x) < 0. 

On se bornera donc au cas avec des contraintes inégalité. Cet 
artifice allège au moins la motivation théorique de l’algorithme 
bien que le doublement du nombre d'inégalités risque d’alourdir 
le calcul. Plus loin nous justifierons théoriquement l'algorithme 
pour le problème de minimisation de f, (x) sous les contraintes 


fi (x) < 0, i ET. (5.2) 


L’algorithme modifié pour le problème général (5.1) sera étudié 
séparément. 

Ainsi, nous étudierons, sans réduire la généralité, l'algorithme 
pour le problème (5.2). Il est clair qu’on peut toujours supposer 
l'existence d’une inégalité (5.2) triviale : 0 < 0. On admettra donc 
qu'il y a, parmi f; (x), iE J, une fonction identiquement nulle: 


fi a) = 0. 
1. Hypothèses fondamentales. Posons 


F (x) — Max Ïi (x), 
eg (5.3) 
Jo(z)= {ET : fi (2)2F(z)—6}, 820, 
Par hypothèse faite plus haut, F (x) > 0 quel que soit x. Supposons 
qu'il existe des constantes N => 0, 6 > 0, telles que 
a) l’ensemble 
Qx = {z: fo (2) + NF (2) < Co}, Co = fo (Go) + NF (to), 
soit borné; 
b) les gradients des fonctions f; (x), à € {0} U Ÿ, vérifient dans 
Q,, la condition de Lipschitz, i.e. 


Il fi (ta) — fi (2) NL ri — 2e ||; 
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c) le problème de programmation quadratique 
min (fs (x), p)+ LI pIl, (5.4) 
(fi (x), p)+ fi (2) O0, iE Ter), 


soit résoluble par rapport à p € E” pour tout x E Q,, et il existe 
des DulApHieRteurs de Lagrange u‘(zx)}, i€ Ja(x), tels que 


Y, ut(z) SN. Ici et partout dans ce paragraphe || p || désigne 
To ) 
la norme euclidienne du vecteur p. 
La solution du problème (5. 4) sera désignée par p (x) et les mul- 
tiplicateurs de Lagrange par u'(x), iE Ta (x). 


2. Formulation de l’algorithme. Soit l’approximation initiale 
z, et & choisi, 0 << e << 1. Supposons que le point zx, est déjà obte- 
nu. La construction de l’approximation suivante se fait en deux 
étapes. 

1) Résolvons le problème (5.4) pour x = z4 et trouvons sa solu- 
tion, à savoir le vecteur px = p (x). 

2) Trouvons la première valeur de i = 0, 1, ..., satisfaisant 
à l'inégalité 


f(m+-ps) + NF (a+ nm) (+ NE Gx)——el pa [le 


Si cette inégalité a lieu la première fois pour i— is, on pose &, 2" 
Tati = Tr + APn: 
Ainsi, on à à chaque pas 
f (zut) HN (aus) KT (ar) + NF (m2) — axe || p [P. (5.5) 


3. Convergence de l’algorithme. Montrons qu’à chaque itéra- 
tion le choix du pas &, s'effectue en un nombre fini de bipartitions 
de l'unité et justifions la convergence de l’algorithme. 

Les résultats du ch. I, $ 3/entraînent que p (x) est solution du 
problème (5.4) si et seulenrent si il existe des u: (x) Z0,i1E Ta (x), 
tels que 


f()+P@+. À w (x) fi (x) =0, (5.6) 
1 ô XX 
ul(z)((fi(x), p(x))+fi(x)=0, iETo(x). 


Aussi 
GG) p@)=— À uv) (fi), P()—IP@IE= 
1€ TJ px) 


2) ut(z)fi(z)—||p(x) |E. (5.7) 


1E7 g(x) 
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LEMME 5.1. Pour que le point x vérifie les inégalités (5.2) et les 
conditions nécessaires de minimum de f, (x) avec les contraintes (5.2), 
il faut et il suffit qu'on ait l'égalité p (x) = 0. 


DEMONSTRATION. Supposons que x vérifie (5.2) et qu'on a en ce 
point les conditions nécessaires de minimum de f, (x). Il existe 
alors des nombres u' > 0. i € J, tels que 


fe @= 2 ufi(z)=0, uifi(x)=0, ieT. (5.8) 
Si x satisfait à (5.2), alors F (x) — 0 et 7, (x) se confond donc avec 
l’ensemble des i pour lesquels f; (x) — 0. En vertu de la seconde 
relation (5.8) on a de plus u° = 0 si f; (x) << 0, i.e. si à 6 Ÿ, (x). 
Vu que J4 (x) = Jo (x), (9.8) se récrit donc: 


fta)+ D uïfi(z)=0, uïfi(z)=0, ie To(x) 
1€ TJ at) 


Ô 


Mais la comparaison de (5.6) et des dernières relations montre que 
le vecteur p — 0 est solution du problème (5.4) car toutes les con- 
traintes (5.4) sont vérifiées pour cette valeur de p (du moment que 
(5.2) le sont). et la justesse des relations (5.6) pour p — 0 constitue 
une condition nécessaire et suffisante pour que le vecteur p = 0 
soit solution de (5.4). 

Soit maintenant p (x) — 0, autrement dit, les contraintes du 
problème (5.4) sont satisfaites pour p = O0, i.e. f; (x) <0,i €. a (x). 
Comme on a, pour ié Ja (x), 


fi) < F (x) — 8 < jf; (2) < 0, 


avec j E Jy (x), le point x vérifie toutes les contraintes (5.2). De 
plus, quand p = 0, les relations (5.6) deviennent (5.8) si l’on pose 
ut = 0,iéfJ; (x). Ainsi, les conditions nécessaires de minimum de 
fo (x) Sous les contraintes (5.2) sont également remplies, ce qui 
achève la démonstration. 


Evaluons la variation que présenteront toutes les fonctions du 
problème lorsqu'on se [déplacera du point x, dans la direction p. 
Pour iE€.J4(z:), on a, à l’aide de la formule de Taylor, 


fa (tn + @Pa) = fi (tx) + & (Pa, Fi (Tx)) + @ (Dur fi (O:) — fi (zx))s 


Où 6, = zx + QEiPhs 0 L Er L' 1. pr étant solution de (5.4) quand 
T = TZ}, On à 


fi (un + apr) < fi (ax) — af (ar) + I] pa [PL 
<(1— a) fi (xx) + 2 || px | L, (9.9) 


formule déduite en se rappelant que les gradients de jf; (x) vérifient 
la condition de Lipschitz. 


12—01608 
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Pour ié Jo(x:), on a 
fe (Zn + @px) = fi (2x) + @ (Pr, fi (GG) F (2x) —8 + aK [| pall, (5.10) 


avec À bornant ||; (x) || dans Q. 
Du moment que 


(—a)F (mm) > Fe) — 6 + ak || pr il 
pour «& tels que a<1, 


0OLSa< : 


F(zr)+ K | pa || ? 
(5.9) et (5.10) entraînent que, quel que soit i, on a l'inégalité 
fi (tn + apa) < (A — @) F (2x) + a°L || pa | (5.12) 
à condition que & vérifie (5.11). 
Par analogie avec les estimations précédentes 


fo (Tr + &Da) = fo (Tr) + & (Prs fo (Zr)) + À (Pns fo (80) — fo (Tx)), 
0, = zx + aEopas OK 1. 


Utilisons (5.7) et la condition de Lipschitz pour les gradients, il 
vient 


fo (Zn + &Pa) < Jo (zx) + a, 2 w (22) fi (æx))— @ I px 2 + @2L |] px E. 
SFR 


(5.11) 


Cette relation et (5.12) entraînent 
fo (za + Gp») + NF (2x + apr) <fo(zr) + NF (x) + 
+a (2 w (21) fi (ma) — NF (2) — || pa [2 + &2(N +1) LI] ps |. 
O\TR 


(5.13) 
Rappelons que u'(x,)>0, F(x)>0 et 
> u'(n)<N. 
ET ax) 
Donc 
> u'(n)fi(m)—NF(x)<0. 
1E Jah) 
(5.13) se récrit alors: 
fo(tr +apr)+ NF (mi +an)< 
< fo (2r)+ NF (tx) — |] pa [P(1—@ (N + 1) L) 
ou (si 
Say rr) (5.14) 
SENTE L 


fo(z +apr)+ NF (x +apr)< fo(zs) + NF (x:)— ae || px ll. (5.15) 


Si 


0La<a, 
ci = min (1 Se 
” F(zæ)+K pal (N+L 7? 


on a donc l'inégalité (5.15). 
Cela signifie que (5.5) a lieu après un nombre fini d'essais à — 
= 921 i=0,1,..., et qu'on a 


> +. (5.16) 


Démontrons un théorème sur la convergence du processus. 


TH£oREME 5.1. Sous les hypothèses du n° 1, le processus jouit 
des propriétés suivantes : 

a) F (z,) +0 pour k +; 

b) tout point limite x, de la suite x,, k = 0, À, . .., vérifie les 
inégalités (5.2) et Les conditions nécessaires de minimum de fo (x) sous 
les contraintes (5.2). 


REMARQUE. Dire que F'(x;,) tend vers zéro c’est dire que la 
suite zx, satisfait toujours plus exactement aux contraintes (5.2). 


DEMONSTRATION. La fonction f, (x) + NF (x) décroissant à cha- 
que pas en vertu de (5.15), tous les points de x; appartiennent au 
domaine ,,. Comme ce dernier est compact, fo (x) + NF (x) est. 
bornée sur cet ensemble parce qu’elle est continue. D'où 


Gn || Pr IF 0 (5.17) 


pour k# — oo, car dans le cas contraire f, (x) + VF (x) décroît 
indéfiniment suivant la suite z,. 

Démontrons que p, —0. En effet, s'il n'en était pas ainsi, 
(5.17) entraînerait &«,; —0 suivant une suite partielle d'indices k. 


Il résulte alors de (5.16) et de l’expression de &; que pour k# grands 
on a 


1— 1 ô 
RETZ FT RNAI 


Le second membre de la dernière inégalité doit donc tendre vers 
zéro. Comme F (x) est une fonction continue sur l’ensemble compact 


| ô | 
S, elle est majorée et l'expression = 
N j pression Fan Al ne tend vers 
zéro que Si || px || —> +oo. Or, on obtient à partir de (5.6) 


IP) + D ua) fm) Îl<X (+20 
Jen) 


Ainsi, l'hypothèse de p, 0 nous a conduit à une contradiction. 
12% 


180 METHODES DE RÉSOLUTION DE PROBLÈMES AVEC CONTRAINTES [CH. III 


On a par définition de p4 
(fi (ax); Pr) + fi (m)) KO, EE Jo (x). 
Donc 
fa (an) < — (Fi (x), Pr) KT pal ET (rx). 
Mais fj(2x) < fi (tn), Ja (xx), iE J's(zu). D'où 
CNE (x) << K |] pa ||. 


Ainsi, F (zx) +0 pour À oo car F (x:) = 0. Posons ensuite 
u'(z) — 0, ié Ja (x). (5.6) se récrit alors suivant la suite x, : 


fo (Zn) + Pr + 2 u\ (zx) fi (rx) = 0, 
1€ 
ui (zx) ((fi (zx), pr) + fi (m)) = 0, ET. 


Soit z, un point limite de la suite x,;. Du moment que z, € Q,. 
et Q,est ‘compact, il existe toujours de tels points. On peut estimer, 
sans restreindre la généralité, que x; — x,. Etant donné que u' (x) > 
> 0, i ET. et que leur somme est bornée, on admet de plus que 
u' (xs) — ui quand k — oo. 

Passons à la limite dans (5.18), il vient 


fi(z.)+ D'uifi(r.)=0, uïfi(r)=0, ie JT. 
ie 


(5.18) 


De plus, u‘ >0 car u‘(x,) > 0, et le point zx, vérifie toutes les 
contraintes d 2) parce que 1 (xx) < < F (z») et'F (zx) —0, d’où, 
par passage à la limite, f; (x,) < 0. . Cela démontre les conditions 
nécessaires de minimum en z, et, par là même, le théorème 5.1. 


CoNsEQUENCE. Si les conditions nécessaires de minimum ne sont 
remplies qu’au point qui réalise le minimum de la fonction la suite 
générée par l'algorithme converge dans les contraintes (5.2) vers le point 
de minimum de f, (x). 

En effet, seul un point de minimum peut être alors, selon le 
théorème 5.1, l'unique point limite de la suite 24. 


&. Aspects numériques. C’est la résolution de (5.4), problème 
de programmation quadratique, qui constitue l'opération principale 
exigeant de nombreux calculs à chaque pas. En optant pour telle 
méthode de résolution on se rappellera qu'il s’agit du problème 
auxiliaire qui doit être résolu en un nombre fini de pas. Etant donné 
qu’on ne connaît en général pas d'avance la constante N, il y a in- 
térêt, en abordant (5.4), à obtenir les multiplicateurs de Lagrange 
u* (x) correspondants. À la lumière de.ces circonstances on fera 
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bon de passer au dual de (5.4) et de se servir de la méthode du gra- 
dient conjugué exposée au n° 5, $ 1 du présent chapitre. 

Construisons ce problème dual. Conformément au ch. I,$ 3, 
sa fonction économique s'écrit 


pQu)=min[ (fe), +5 lplr+ D u(GiG@) p+ fe). 
iEJ 8(x) 
(5.19) 


Egalons à zéro les dérivées par rapport à p du second membre, on 
constate que le minimum est réalisé pour 


p=—f(x)— 2 ufi(x). (5.20) 
1€! 6(x) 
Ainsi, le point p est défini de façon unique par le vecteur uw de 
composantes u, i € Jy (x). 
Portons (5. ” de le second membre de (5.19), il vient 


ne@+ D uf@f+ S ut. (6.2) 
1€ o(x) iEJ (x) 


La fonction économique du problème dual est donc calculée, 
et le problème même consiste à maximiser  (u) sous les contraintes 
u! > 0, LE J à (x). 

Nous avons donc abouti à un problème de maximisation d’une 
forme quadratique avec des contraintes simples, problème qui se 
prête avec succès à la méthode du gradient conjugué (n° 5, $ 1, 
ch. III). 

La résolution nous donne les multiplicateurs de Lagrange u* (x), 
solution du dual, et, selon le $ 3, ch. I, par substitution de u° (x) 
dans (5.20) on obtient le vecteur p (x), ‘solution du primal. 

Une autre question à éclaircir est le choix des constantes WV 
et ô. La quantité N est en général inconnue. En la prenant trop 
grande on risque, en vertu de la formule (5.14), de fractionner consi- 
dérablement le pas. Il y a donc intérêt à l’évaluer au cours de l’algo- 
rithme. Si on a par exemple à un pas 


N< > u* (z:), 
iEJ 6(xp) 


q (u) — TT 


on change N: 


N=2 D  u'(x). (5.22) 
1EJ Sx)) 
L'expérience atteste le bien-fondé de cette correction. Il est clair 


théoriquement que si z, est suffisamment proche d’un point limite, 
u* (z,) sont voisins, dans le cas régulier, des multiplicateurs de 
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Lagrange en x,, solution du problème, et avec la formule (5.22) 
on va donc réussir. Plus loin nous parlerons en détail du comporte- 
ment des multiplicateurs u* (z;). 

En ce qui concerne 6, il faut le réduire si le problème auxiliaire 
(5.4) se trouve impossible à un pas. 

Donnons maintenant les conditions garanties d'existence de N 
et Ô. En fait, ces constantes existent dans une classe de problèmes 
infiniment plus vaste. 


THÉOREME 5.2. Si toutes les fonctions fo (x), fi (x), à E TJ, sont 
convexes, il existe un point x tel que 


fi (x) < 0, iC JT, 


Îo (x) tendant vers +o pour z — +o et le point x, vérifiant les 
contraintes (5.2), quel que soit Ô >> 0, les multiplicateurs u* (x), i € 
€ Je (x), sont alors majorés sur l'ensemble Q,, pour N suffisamment 
grands et Q, est compact. 


DEMONSTRATION. Rappelons que 
Ov = {rt fo(e) + NF (2) fo (x) + NF (x)}. 


Cette égalité et la continuité de f, (x) et de F (x) entraînent que Q, 
est fermé. D'autre part , est borné parce que f, (x) + pour 
Z — Ho par hypothèse et donc 


fo &) + NF) > fo (to) + NF (x) 


avec tous les x suffisamment importants en norme. Poursuivons. 
Comme x, vérifie (5.2), F (xo) = 0. Aussi Q, € Q, quels que soient 
N. Il résulte en effet de xE€Q, 


fo (x) < fo (&) + NF (2) € fo (to) + NF (xo) = fo (Go); 


1e. fo (2) < fo (To) La compacité de (2, est également évidente 
en vertu de l'hypothèse du théorème. 
Puisque toutes les f; (x) sont convexes, on a 


fi (x) + Gi (x), x — 2) K fi (2) < 0. (5.23) 
Le système de contraintes du problème (5.4) est donc compatible 


pour tout à => 0 du moment qu'il est vérifié par le vecteur p = zx — 
— Z. 

Soient u‘ (x) les multiplicateurs de Lagrange du problème (5.4). 
Selon le théorème du Kubhn et Tucker, 


LIL» GIP + (5 @), PH) 


STIPle+ (2, p)+ D ut (z)(( (x), p)+ f(x) 
ie J 8x) 
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quel que soit p. En particulier, lorsque p=p=z—zx, on a en 
vertu de (5.23) 


IP QI + @, POS 
<ZIPIE+ GG, P+ D ui (z)((i() P)+ fi GS 
iEJ ox) 


<SIPE+HG, + D un f@< 
ie J ox) 


SLI PI +5 (2), P) + ui (2) fi ©. 
D'où (f,(z) << 01), 


 [RP@E+Gs ee pen ]-[ + 1r1r+ 06 ©. »] 
u RE 


le aumérateur contenant une quantité non positive parce que p (x) 


est solution de (5.4) et P satisfaisant aux contraintes (5.4). 
Montrons la borne dans Q, de la fraction ci-dessus. En effet, 
les fonctions f; (x) admettant des dérivées continues, la quantité 


Z ILPIÈ + Gi (D = +2 |P+ (fo, 22) 
est bornée dans le compact Q,. Aussi la quantité plus petite 
Le GIP + (5 @), pG) 
y est majorée. Quant à sa minoration, on a 


+ LP (IP + ( @), p a)>+| P(2)[P—1f (@)1r @IZ 


(5.24) 


>—+|1f ()|P, 


ie. pour z € (, la quantité étudiée est également minorée. 
Ainsi, nous avons montré que les seconds membres de (5.24) 
sont majorés dans Q,, i.e. u° (x) < M, z € Q,, il en découle de suite 
l'affirmation du théorème. 
Si le problème primal est donc un problème de programmation 
convexe, l’algorithme travaille avec tout ô > 0 à condition que: 
le domaine admissible contienne le point intérieur. 


5. Certaines généralisations. Nous avons déjà dit au début de 
ce paragraphe qu'en présence de contraintes de type égalité, i.e. 
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quand les contraintes sont de la forme (5.1),:le problème se ramène 
à (5.2) en remplaçant chaque égalité par deux inégalités. 

L'algorithme s'applique donc au problème général (5.1). Mais 
on n'oubliera pas que si pour un z 


f(x) > F (2) —6 et —fi(x) > F (x) — 6, 
avec à € Jo, le système (5.4) comprend alors deux inégalités 
(fi (x), p) + fi (a) KO, — (x), p)—fi(x) LO, (5.25) 
qui équivalent à l'égalité 
(Gi (x), p) + fi (x) = 0. (5.26) 


Il y a donc intérêt à en tenir compte en résolvant le problème auxi- 
liaire et à substituer dans (5.4) une égalité (5.26) à deux inégalités 
de la forme (5.25). En passant au problème dual, cela détermine 
l'arbitraire quant au signe du multiplicateur u' correspondant, ce 
qui n'exclut cependant pas l'algorithme de gradient conjugué 
(n° 5, $ 1, ch. IIT). 
Admettons que le problème primal est soumis, en plus de (5.2), 
à une contrainte définie par la condition que le point x appartient 
à un ensemble X de structure simple. Il serait bon dans ce cas que 
les approximations obtenues se trouvent dans X. Indiquons la 
modification correspondante de l'algorithme. Toujours sans res- 
treindre la généralité, bornons-nous au cas de contraintes inégalité. 
Ainsi, on demande de minimiser f,(x),z € E", dans les con- 
traintes 
Ji (x) < 0, iEJ, zEX, (5.27) 


où .J est un ensemble fini d'indices et X un ensemble fermé convexe. 
On suppose l'existence d’un indice à tel que f; (x) = 0. 
Admettons qu'il existe des constantes N >> 0 et ô >> 0 vérifiant 
les conditions suivantes : 
a) l’ensemble 


Qu = {rt fo) + NF (2) Co 7 EX}, 
Co= f(x) + NF (to), 8 


est borné et l’approximation initiale x, appartient à X ; 
b) les gradients des fonctions f; (x), à € {0} U Z, vérifient dans 
Q, la condition de Lipschitz, i.e. 


Ii (ms) — fi (2) IL; 
c) le probleme 
min (fs (z), p) ++ lp IF, (5.28) 
(fi (x), p)+ fi: (&)<0, iE Tax), z+PEAXS 
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est résoluble par rapport à p pour n'importe quel xE€ Q,, et il 
existe des multiplicateurs de Lagrange u° (x), i € J 4 (x), tels que 


D Ou (x) EN. 
iCJ (x) 
REMARQUE. Rappelons que les multiplicateurs de Lagrange: 


pour le problème (5.28) sont des nombres non négatifs satisfaisant 
aux conditions 


(f(x), P(z)) +(P (x); p()+ 2 u' (x) [(f (x), (+ fi NS 


a”) 
<(f (x), P)+(P (2), P) + 2 u'(x)[( (x), P)+fi(z)] (5.29) 
1€ sx) 
pour tous les p tels que 
z+peEÀx. (5.30) 
De plus, 
ui (x) [fi (x), p (x) + fi (a) = 0, à € T6 (x). (5.31) 


Ainsi, la condition c) suppose non seulement que le problème 
auxiliaire (5.28) possède une solution, mais aussi que les conditions 
nécessaires et suffisantes du théorème de Kuhn et Tucker sont réa- 
lisées au point de minimum p = p (x). 

L'algorithme de résolution de (5.27) est maintenant construit 
comme indiqué au n° 2 de ce paragraphe, à cette différence près 
qu’on prend pour p4 le vecteur p (x2:), solution du nouveau problème 
auxiliaire (5.28). 

Montrons la convergence de l'algorithme, i.e. la validité du 
théorème 5.1, et l'appartenance de z, à X quels que soient k. La 
dernière affirmation implique en particulier la même propriété de: 
tout point limite de la suite z,. Vu que la démonstration de la 
convergence ne diffère de celle du théorème 5.1 que par certains 
détails il suffit d’en citer les éléments caractéristiques. 

Primo, comme z, + px € X, avec X convexe, on a x, + apr € X 
pour tout & compris entre 0 et 1. Si z, € À, on a donc z441 € À. 
Or, z, appartenant à À par hypothèse, il en est de même de toute: 
la suite {z2}r0- 

Secundo, on obtient de (5.29)-(5.31) pour p = 0 


(fe), PG&)+IPHIPS DZ u'(x) f(x, 


i€ g(x) 


ee), PR) Ù u(x)fi(2)—|p (x) [f. (5.32) 
iEJ ÿ(x) 

Cette inégalité remplace (5.7) utilisée dans l'évaluation (5.13), les: 

autres calculs effectués en vue d'obtenir des estimations restant 

sans modification. 
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Enfin, si p (z,) = 0 en z,, il découle de (5.29)-(5.31) les condi- 
tions suivantes : 


(fire), p)+ à u'(2)(fi(z), p>0, 
1€ Fax) 


ô 5.33 
TZ +PEX, u'(x,) fi (x) = 0, CE Js(z). | | 


De plus (5.28) entraîne alors 
fa (re) < 0, CT (x), Ze E À; 
et il est évident que 


Ji (z4) < 0, iG Je (z4)- 


Ainsi, le point x, vérifie toutes les contraintes (5.27) et les 
conditions (5.33) montrent qu'on a en ce point les conditions néces- 
saires d’extrémum. 

Nous avons montré une fois de plus que, si p (x,) = 0, le point 
z, remplit les conditions nécessaires d’extrémum. La réciproque 
se démontre sans peine de sorte que p (x) = 0 est une condition 
nécessaire et suffisante pour que le point x soit soupçonné de réaliser 
l’extrémum de la fonction. 

Comme pour le théorème 5.1, on démontre par passage des rela- 
tions (5.29)-(5.31) remplies aux points zx, aux relations (5.33) qui 
le sont au point limite, que tout point limite x, de la suite x,, 4 — 
= 0,1, ..., vérifie les conditions nécessaires d’extrémum. 


6. Problème de programmation linéaire. Supposons maintenant 
toutes les fonctions f, (x), fi (x), à € J, de (5.2) linéaires, si bien 
qu'on est conduit au problème de programmation linéaire. Quoique 
l'algorithme exposé plus haut soit le plus intéressant pour le cas 
non linéaire, son application au cas linéaire a un sens. En parti- 
culier, si l’ensemble d'indices se compose de nombreux éléments, 
on a un problème de programmation linéaire avec de nombreuses 
contraintes. D'autre part, pour Ô petit, le problème auxiliaire (5.4) 
ne présente que peu de contraintes si bien que le problème général 
se ramène à la résolution d'une suite de problèmes plus simples. 
À la différence de la méthode du simplexe, la technique proposée 
ne conduit pas à l’accumulation de l'erreur de calcul parce qu’elle 
ne transforme pas à chaque pas la matrice initiale des contraintes. 

S'agissant du problème de programmation linéaire, les condi- 
tions fondamentales a), c) (la condition b) est vérifiée automatique- 
ment) imposées à la convergence s’avèrent trop sévères. Nous ne 
nous arrêterons pas sur les conditions de convergence pour le problè- 
me de programmation linéaire vu que notre but essentiel est de 
construire l’algorithme pour le cas non linéaire. On montrera plus 
loin qu’au moins dans a), c) pour le problème de programmation 
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linéaire il y a convergence au bout d’un nombre fini de pas. Ce fait 
caractérisera dans une certaine mesure la vitesse de convergence 
de l'algorithme. 


TH£OREME 5.3. Soient, sous les hypothèses a), c) du n° 1, f, (x), 
f: (x) les fonctions définissant le problème (5.2) qui sont toutes de la 
forme 
fa (x) = (a, x) — bi. 
L'algorithme du n° 2 converge alors après un nombre fini de pas. 


DEMONSTRATION. Notons pour commencer que dans notre cas le 
pas &, vaut 1 pour des k suffisamment grands. En effet, toutes les 
fi (x) étant linéaires, la constante de Lipschitz L est nulle. Il résulte 
donc de la formule pour @, (n° 3) 

Ô 1 —e )= 
* F(zr)+ÆKlpall (WN+1L) 


. 1) 
= Min (1, FAR AGI) (5.34) 


Or, on a démontré plus haut que F (x) +0, || px || —-0. On a donc, 


pour des À suffisamment grands, ENES > 14, et an = 1. 


Mais «, est construit de façon que l'inégalité (5.15) ait lieu quand 
ar — &n. Comme le choix de &x à chaque itération débute par la 
bipartition de « = 1, il en résulte que l'inégalité (5.5) déterminant 
ce choix est vérifiée immédiatement sans qu’on ait besoin de frac- 
tionnements supplémentaires, et le pas ax vaut 1. 

Soit maintenant x, un point limite de la suite z, générée par 
l'algorithme. On sait qu'il est solution du problème (5.2) vu qu'il 
vérifie toutes les contraintes de celui-ci et qu’on a en ce point, 
selon le théorème 5.1, les conditions nécessaires de minimum qui 
s'avèrent également suffisantes dans le cas considéré du problème 
de programmation linéaire. 


&y = min (1 


Posons 
Tor) = {ET :fi(x,) = 0}. (5.35) 
Alors f; (z,) < 0 pour ié Jo(x,), de sorte que 
Eo—= max f(x.) <0. (5.36) 
16 Jotxe) 


Afin de simplifier les notations, nous supposerons, sans restreindre 
la généralité, que toute la suite x, converge vers z,. 
Considérons le problème auxiliaire (5.4) aux points de la suite z, : 


min (fo (zx), p) + _ I PF 


ie), p)+f(m) SO, € Jo(z): 1:99 
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Pr = p(z:) en est solution. Désignons par ui, k# € Ja (x), Îles 
multiplicateurs de Lagrange correspondants, de sorte que 


uh [(f (zx), px) + fi (æ)] = 0. (5.38) 


Montrons l'inclusion J, (2,) Ja (xx) pour tous les 4 suffisamment 
grands. En effet, si iCŸJa(xx), alors 


fi (tr) << F (zx) — 6. 
et par passage à la limite par rapport à # on obtient, compte tenu 
de la tendance de F (z,) vers zéro, que f, (x,) < —6, ce qui contre- 


dirait à € To (x). 
Notons 


T (ax) = {ET o (ær): ui > 0}. 
Nous disons que pour * importants 
T (mx) € Jo (x). (5.39) 
En effet, si i 6 J,(x,) alors f; (x,) < 2e. Comme px —+0, f; (r:) 
sont bornées et zx, —zx,, on a pour * grands 
ia), PIS, HET, 
et donc 


(ia), pa) + fi (mn) << 0. 
Donc, si ui > 0,0ona 


ui [(fi (zx), Pr) + fi (xx) << 0, 
ce qui contredit (5.38). 


REMARQUE. Les développements ci-dessus n’ont pas utilisé 
la linéarité de f; (x) si bien que les affirmations sur les inclusions 
Jolr) Jo) et TJ (zx) E To (x,) sont vraies dans le cas 
général d’un problème non linéaire et nous nous en servirons dans 
la suite. 

Le dual du problème auxiliaire (5.37) consiste en la maximisa- 
tion de la fonction (5.21) sous les contraintes u* > 0, i € J 4 (xx) 
(voir n° 4 du présent paragraphe). Ceci étant, les multiplicateurs 
de Lagrange u; sont solution du problème dual et il y a égalité 
des valeurs optimales du primal et du dual. i.e. 


(fo (tx); Pa) ++ Pa IP = 


=——fé@)+ D ufr D uifi(a). 


1E Jo *R) ET xh) 
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Comme p, 0, le premier membre de la dernière relation tend 
vers zéro et donc 


1 
2 


fhen+ D Oufif+ ZX uifi@m)—0 (540) 
ET (Xp) ET xx) 

Notons que ui n'est > 0 que si i € Ÿ (#). De plus 

fi (x) =. (a;, x) — b;, LE {0} U JT: 


de sorte que f; (x) — a; et est indépendant de x. Aussi (5.40) se 
récrit 


1 
2 


. 2 à 
dot D uja, | D, uifi (zx) — 0. 
ie F(xy) ie F(xz) 


Mais nous savons que Ÿ (r:) Jo (x,), c'est pourquoi f; (xx) —+ 
—+ fi (x,) = 0, car f; (x,) = 0 par définition pour i € 7, (x,). Donc 


1 .. 2 
— + | co+ D ujas | — 0. 
iE F(xp) 
Mais 
— + |co+ >: uia; <, max + a+ > ua |} <0. 
ie F(x,) u°p0, ie (x) ie (x) 

(5.41) 

Posons 

w(ÿ)= max —|la+ }uïa|; 


ui>0, ie# Ier 


& (7) étant définie sur l’ensemble des indices #, ; & 7. Vu cette 
inclusion, & (;) ne peut prendre qu’un nombre fini de valeurs. 
Il résulte de (5.41) que 

© (T (zx)) +0. 


Or, cela signifie que w (Ÿ (x:)) = 0 pour tous les k suffisamment 
grands car &w (+) parcourt, nous venons de le dire, des valeurs en 
nombre fini. 

Ainsi, pour * grands, . 

w (J (x:)) = 0. (5.42) 

Choisissons un k si élevé que &, = 1 et la condition (5.42) a lieu, 
ainsi que l'inclusion Ÿ (x:) € J, (x,). Comme a, = 1,0on a x», — 
= Z + pr. Etant donné x, —>2x,, pr 0, on admet que 


fire) SS<O, 6 Jo(zs). (5.43) 
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Revenons au problème auxiliaire (5.37). p, vérifiant les con- 
traintes (5.37) et f; (x) étant linéaires, on a 


fi (nta) = Gi (&x), Pa) + fi (x) K 0 (5.44) 


pour i € Ja (æ)et, partant, pour i € TJ, (2) car Jo (2) € Ts (tr) 
Cela montre que z,,, satisfait à toutes les contraintes du problème 
(5.2). 

Montrons que z:+, est solution de ce problème. En effet, (5.38) 
et la définition de l’ensemble Z (x:) entraînent 


fi (tnt) = 0, i ET (x). (5.45) 


Mais l’égalité (5.42) signifie qu'il existe des nombres ut > 0, :i€ 
€ J (zx), tels que 
do-+ à uia; = 0. (5.46) 
ie (xp) 


Posons ui — 0, i& J (xx); nous obtenons l'existence des nombres 
ui > 0 vérifiant les conditions 


do + à uia;=0, uif; (zu+s) = 0. 
LH 1 


Mais les dernières relations sont (voir ch. Ï, $ 3) les conditions 
nécessaires et suffisantes pour que le point z:+4, soit solution du 
problème de programmation linéaire. 

Ainsi, Jl’algorithme donne une solution après un nombre fini 
de pas, c.q.f.d. 


7. Evaluation locale de la convergence. On a montré au n° 6 que 
dans le cas linéaire l’algorithme proposé converge en un nombre 
fini de pas. Nous allons établir que s'agissant du cas non linéaire 
général et des conditions naturelles la convergence est en progres- 
sion géométrique et même quadratique dans certaines circonstances 
favorables. 

THÉOREME 5.4. Soit x, solution du problème (5.2). Si 

a) quel que soit Ô >> O suffisamment petit, le problème auxiliaire 


(5.4) admet une solution ; 
b) les fonctions f; (x) sont deux fois continûment dérivables et les 


gradients fi (te), à E Jo (.), avec 
Jo (z,) — {i: Ji (z,) — 0, l E J}, 


sont linéairement indépendants; 
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c) Le point x, vérifie une condition nécessaire de minimum de le 

forme 
f(r)+ D uifi(z)=0 
1EJotxs) 

el ui > 0, iC To (x,); 

d) on remplit une condition suffisante de minimum local, i.e. 

Gp, L' (te; Uo) p) > 0 
pour tous les p 0 vérifiant la condition 
(p,fi(z.)) = 0, i € Jo (x), 
où 
L(u)=f(n+ À u'fi(), 
icJo(xe) 
et L' désigne la matrice des dérivées secondes L (x, u) par rapport à x, 
il existe alors un voisinage Q du point x, 69 > 0, et un a > 0 tels 
que le processus 
Th+1 = Tr + APR (5.47) 

converge vers x, à partir de toute approximation initiale x, € G et 


cette convergence est géométrique, i.e. il existe un nombre 0O<qg<î 
tel que ||z, — zx [| & Cg* pour tous les k suffisamment grands. 


DEMONSTRATION. L'idée de base est la suivante. Nous savons 
que le point x, vérifie l'équation 
P (z,) = (0. 


(5.47) est un processus itératif simple destiné à la résolution 
de cette équation. La convergence s'évalue donc à l’aide du théorè- 
me d'Ostrowski qui sera énoncé plus bas et qui exige qu'on évalue 
les valeurs propres de la matrice des dérivées premières de p (x) en z,. 
Par conséquent. notre tâche consiste en premier lieu à calculer 
cette matrice et ses valeurs propres. 

La démonstration du théorème se fera en plusieurs étapes. 

Posons 


Jo(z)= {ET : f(x) = 0}, 


= max f,(7,)<0. 
1EJot*s) 


LEMME 5.2. Etant donné les conditions du théorème et l'inégalité 
Ô < — > , il existe un voisinage du point zx, tel que Ÿ s (x) = Jo (x,) 
et p (x) y soit continüment dérivable par rapport à x. De plus, l'en- 


semble : 
J (2) = {ET (x): (1x), p (x) + fi (x) = 0} 


coïncide avec J, (x). 
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DEMONSTRATION. Vu la continuité de toutes les fonctions f; (x), 
il existe un voisinage de x, tel que 
—Ô/2< f;(x) 6/2, iE Jo(re), (5.48) 
fi (x) 80/2, iEJo(re)- (5.49) 
Rappelons que 
F (x) = max {0, max j; (x)} 
ie] 


et iE Ta (x) si f; (x) > F (x) — 6. Il découle de (5.48), (5.49) que 
0< F (x) < 6/2, (5.50) 
et si ié Jo (x), alors 
F2) —802>—68>e0#2> f(x), 


iéJa(x). D'autre part, pour iEŸ,(zx.), (5.50) entraîne 
F (x) — Ô < —6/2 et donc 


hi (2) > —6/2> F (x) — 6, 
iE Jo (x). 
. Jo (x) = Jo (x) dans un voisinage de x, 


Rappelons que si p (x) est solution du problème (5. 4), on a les 
conditions (5.6) qui se récrivent sous forme équivalente 


p(a+f(+ À (x fi(z)=0, (5.51.1) 
1€ (x) 
(f£(x), p(a))+fi(x)=0, ET (x), (5.51.2) 


(i(x), p(2)+f (x) <0, ET (x), 1EJo(z), (5.513) 
avec u' (x) > 0 
Introduisons plusieurs nouvelles notations. Soit # € Ja (x) 
(= To (x). Désignons par f(x) la matrice de lignes f: (x), 
LEY, par fy (x) le vecteur-colonne de FORpOsAnLes fi (x), iEF, 
et par u, le ‘vecteur-colonne de composantes u‘, i € #. Les équations 
(5.51), (6. 52) prennent alors la forme 


p(z)+ fs (x) + f$ (x) uy (2) = 0. 

fe Gp) +fg()=0. #=T (2. 
Ces relations peuvent s'interpréter comme système linéaire d’équa- 
tions en p (x) et Us (zx). On voit sans peine que dans un certain 
voisinage de x, le système (5.52) possède une solution unique donnée 
par les formules 


un(e) = (fe Ce) FE G Ufy (2) — fe (fe 
P()= — fs (2) — 15 @u (0). 


(5.52) 


(5.53) 
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Il en résulte la eee continue de u+ (x) et p (x) par rapport 
à x si l’ensemble Ÿ est fixé. 


Soit zx —zx,. Montrons que T (xx) = Jo (x,) pour, tous les k 
importants. 


Admettons que notre hypothèse est fausse et qu'il existe des 
indices À aussi grands qu’on le veut et tels que .7 (x,) est un sous- 


ensemble propre de 7, (z,). Puisque Ÿ (x) distincts sont en nombre 
fini, on dit sans resteindre la généralité que la suite zx, —+ x, choisie 


est telle que Ÿ (zu) = Ÿ, ÿ € Jo (x). 
Don Tr au] Fe . z dans (5. 51) et passons à la limite (p (zx) — 
D, u! (zx) ut : % ): il vient 


;. +h(&)+ 2 u'f: (x) =0, 
er 


(fi(z), p)+fi(z)=0, ieÿ, 
(fi(z), P+hi(z)<O, iCY, iETo(r)= Jar), 


et ut > Ocar ut (x) > 0. Mais les dernières relations prouvent que p 


est solution en x, du problème auxiliaire (5.4), i.e. p = p (z,). 
Or, x, est solution de (5.2) et donc p (x,) = 0. Ainsi 


fe (a) + XL u'fi (&)= 0. 
er 


Utilisons la condition c) du théorème. La dernière relation donne 
alors 


à Qu;—ui)fi(s)+  “  uifi(z)=0, 
HN MOUSE 
ce qui it la condition b). Ainsi, dans un voisinage du point z, 
l'ensemble Ÿ (x) coïncide avec Jo (x,). Cette constance de Ÿ (x) 
et (5.53) entraîne de suite la dérivabilité continue de Us (x) 
et p (x), # = Jo (z.) par rapport à x parce qu’en vertu de b) ; (x) 
sont deux fois continüment dérivables. 


REMARQUE. Ainsi, dans un voisinage restreint de x,, p (x) 
el ux (x) est solution du système (5.52) pour l’ensemble Ÿ — Ÿ, (z,) 
constant (ce qui permet d'omettre l'indice 3% de uz (x)). 


LEMME 5.3. La matrice p' (x) des dérivées du vecteur p (z), i.e. 
la matrice d'éléments ôp! (2)/67, i, Ï — = À, .., n, avec p'(x) la 
i-ième composante de p (x), s'écrit en x, 


p'(z)= —[P+(1—P) L'(z,, w)], 
13—01608 
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où P— fYotxe) (z,) (Fyotxs) (z,) fotee) (z,))"{ Ja txe) (Ze) 
el us = u (z,). 


DEMONSTRATION. On obtient par dérivation immédiate de la 
première formule (5.52): 


p'(z)=—L'{(r; w)— 2 fi(z)(' (rx), (5.54) 
ie Jotxe) 
avec 
Qui (x) 
oxi 
u)” (x) == 
dui(zx) 
x" 
La formule (5.51.2) donne par dérivation (p (x,) = 0) 
f(x) p'(n)+fi(e)=0, ie To(z). (5.55) 


Indiquons que l'opérateur P défini dans le lemme est celui de pro- 
jection sur un sous-espace engendré par les vecteurs f; (x,), i ETJo (x). 
Cela résulte en effet (voir également ch. III, $ 1, n° 1) des relations 
faciles à vérifier : 

1) PFaotxs) (24) 7 Fhotxe) (z,) ou Pf; (ze) = f; (x), LE Jo (z,) ; 

2) Pt=P; Pr=P?> 

3) (1—P)P=0. 
En récrivant (5.55) comme | 

L'Hoxe) Ca) P'(Le) + Fox) (Ex) = 0, 
on obtient à présent, compte tenu de l'expression de P, 
Pp" (z,) = —P. (5.56) 


La relation 1) entraîne ensuite (7 — P)f;(x,) = 0. Appliquons 
({ — P) aux deux membres de (5.54), il vient 


(J— P)p°(x.) = — (1 — P) L' (xs, uo). (5.57) 
L’addition de (5.56) et (5.57) fournit la formule cherchée pour p” (x,). 


LEMME 5.4. Les valeurs Ra y; de la matrice p' (x,) peuvent 
être Se nr rs comme suil : — —4{ pour j = 1,2, ...,m, 
avec m < n le nombre d'indices de l'ensemble Jo (Le); Vs = —Àj-m 
ma di .., N, avec Àj, j=1,...,Rn —m, les valeurs Pie 
pres de la matrice (I — P) L° la. Uo) (I — P), etÀ;>0,j= 1, 
cs RM. 
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DEMONSTRATION. Soient © une valeur propre et y un vecteur 
propre de la matrice p’ (x,). Selon le lemme 5.3, on a alors 


—Py — (1 — P) L' (x, uo) y = 6y = oPy + o (1 — P)y. 


Utilisons la relation P (7 — P) — 0 et multiplions la dernière 
égalité par P, puis par { — P, il vient 


—Py = oPy, (5.58) 
— (1— P)L'(z,,u)y =06(1— P)y. (5.59) 
Deux cas peuvent se présenter : 


1) Py = 0. I] résulte alors de (5.58) que o = —1. 
2) Py = 0. Dans ce cas (1 — P)y = y et (5.59) se récrit 


(TZ — P) L' (rs, uo) (1 — P)y = —0y, (5.60) 


i.e. o est valeur propre de la matrice (7 — P) L" (I — P). Cette 

dernière est symétrique vu que P = P* et L° = (L”)* en tant 

que matrice des dérivées secondes de la fonction Z. De plus, la 

matrice considérée est définie non négative. En effet, quel que soit w, 
(w, (1 — P) L'(1 — P)w) = (z, L'2), 


où 
z = (1 — P) w. 


Mais  fyuxe) (Ca) 2 = fre) (eo)  — P)w =0 et donc 
(z, L'z) > 0 en vertu de la condition d) du théorème 5.4, l'égalité 
n'ayant lieu que si z — (1 — P)w — 0. La symétrie de la matrice 
(I — P) L' (I — P) entraîne le caractère réel de ses valeurs et 
vecteurs propres. Comme y =£ 0 et y — Py + (1 — P) y, il découle 
de Py = 0 que (1 — P) y 0 et (5.60) fait donc que 


Ainsi, —o = 0 et donc o = —À,;, où À; > 0 est valeur propre 
de (1— P)L"(I — P). 

Nous avons démontré que les valeurs propres de la matrice 
p' (x.) sont réelles et valent soit —1, soit —X;, À; > 0. Il nous 
reste à établir le nombre de valeurs propres égales à —1. 

Par suite de la condition 


Pf; (z,) = LÉ (z,), d € Jo (x), 


l'opérateur (7 — P) possède m vecteurs propres fi (x) associés 
à une valeur propre nulle. Aussi la matrice (1 — P) L'(I — P) 
a également m valeurs propres nulles. On a vu d’autre part que 
p’ (x) a toutes ses x valeurs propres non nulles, dont chacune est 
soit —1, soit une valeur propre non nulle de la matrice (7 — P) » 
X L°(1 — P). On conçoit que cela n’a lieu que dans le cas de la 
validité de l'affirmation du lemme 5.4. 


13° 
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Nous disposons maintenant de tous les éléments nécessaires pour 
achever la démonstration du théorème 5.4. Il s'ensuit du théorème 
d’'Ostrowski [91] que si x, est solution de l'équation p(z) —=0 
et les valeurs propres de la matrice { + ap’ (x,) sont de module 
inférieur à l'unité, la méthode itérative simple x,:, — zx + @p (x) 
converge à partir de tout point d'un voisinage de x, et on a l’estima- 
tion : pour chaque e > 0ilexisteun nombre C (e) tel que ||z, — xl 
<ù 2 (E) (qo + 8), avec 4, le plus grand module des valeurs propres 
de {+ ap'(x,). 

Considérons maintenant les valeurs propres de la matrice 7 + 
+ ap’ (xz.). Elles valent soit 1 — æœ, soit 1 — œÀ;. Choisissons un 
a tel que l'on ait toutes les inégalités 


1—a>—1, 1— aù, > —1,j =1,...,n—m, 


ie. 0<<a< min {2, 2/16}, où à a …., R— M. 
Toutes les valeurs propres de 7 + ap’ (x,) sont alors de module infé- 
rieur à {, d’où, en se référant au résultat mentionné d' Ostrowski, 
le théorème 5.4. 


TH£OREME 9.5. Si, dans les conditions du théoreme 5.4, m (le 
nombre d'indices de l'ensemble Ÿ, (x,)) est égal à n (la dimension de 
l’espace). la convergence du processus (5.47) à partir d'un voisinage du 
point x, pour «à = 1 est quadratique. 


DEMoONSTRATION. Le lemme 5.4 entraîne pour le cas considéré 
que toutes les valeurs propres de la matrice p” (x,) sont égales à —1, 
et donc celles de 7 + ap’ (zx,) valent 1 — &. Si &« — 1, toutes les 
valeurs propres valent O0 et go, = 0. Il résulte donc du théorème 
d'Ostrowski que || x, — xx ( <. C (e) s*, ce qui signifie qu'on a une 
convergence plus rapide qu'en progression géométrique. En fait, le 
processus (5.47) devient alors la méthode de Newton pour le système 
d'équations f; (x) — 0, i € 7, (z.), dont la convergence est quadrati- 
que (propriété établie sur laquelle nous reviendrons au $ 6). 


REMARQUE. Tous les raisonnements du numéro ont porté sur 
un problème avec des contraintes inégalité. Mais les résultats se 
généralisent évidemment au cas comportant des contraintes de type 
égalite. 

$ 6. Méthode de linéarisation (résolution de systèmes 
d'égalités et d’inégalités et recherche du minimax) 


Dans ce paragraphe nous appliquerons la méthode de linéarisa- 
tion à deux problèmes étroitement liés à des problèmes usuels de 
programmation mathématique. On constate en l’occurrence la possi- 
bilité d’algorithmes efficaces présentant une bonne convergence. 


1. Systèmes d’égalités et d’inégalités. Etant donné deux familles 
finies d’indices Z- et J° et les fonctions f, (x), x € E*, on demande 
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la solution du système 
fi (a) SO, ETS", fi(z) =0, ie TS. (6.1) 


Les fonctions f; (x) seront supposées posséder des gradients f; (x) 
continus qui vérifient la condition de Lipschitz de constante L: 


I fi (21) — fi (2) IL Ir 2. 


La norme des vecteurs est partout euclidienne. 
Introduisons les notations 


F (x) = max (max f; (x), max]f, (x) |), 
ie 4 ie 40 


Js(x)= {ii ie TS", fi (2) >F(x)—6}, 
JR(z)={i: iES, |fi(x) [> F (x) — 6}. 


Soit x, un point initial choisi et supposons que pour tous les 
x satisfaisant à l'inégalité F (x) < F (xo) les gradients j; (x) sont 
bornés en norme par une constante X. 


HYPOTHÈSE FONDAMENTALE. Îl existe des nombres ô >0 et 
C > 0 tels que, quel que soit x pour lequel F (x) > 0, F (x) < 
< F (x), le système 


(fi(z), P)+fi (SO, ie Ts (x), 
(fi (x), P)+ ji (x) =0, iC JR (x), 


soit résoluble par rapport à p. Soit p (x) solution de (6.2) munie de 
la norme minimale. On a alors pour des z tels que F (x) > 0: 


Ip GI< CF (x). (6.3) 


L'inégalité (6.3) caractérise dans une certaine mesure la résolubilité 
régulière du système (6.2). En particulier, si celui-ci devient n équa- 
tions à zx inconnues, la condition (6.3) équivaut à supposer la régu- 
larité de la matrice du système correspondant. On montrera dans 
la suite que (6.3) a lieu si les gradients f; (x), à € Ja (x) U Js (x), 
sont linéairement indépendants pour tous les x, F (x) > (. 

Construisons l'algorithme. Les approximations successives sont 
générées par la formule 


Thya = Th T ŒnPhs Pr = P (2x): (6.4) 
avec le paramètre &, choisi par bipartition de l’unité jusqu à ce 
qu'on ait pour la première fois 

F (zs + apr) < (1 — eax) F (zx), (6.5) 
où e est un nombre quelconque choisi d’avance, 0 < £ << 1. Il est 


clair que la formule (6.4) s’applique quand F (x) > 0. Dans Île cas 
contraire, le processus s'arrête et x, se trouve être solution de (6.1). 


(6.2) 
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2. Convergence de l’algorithme. La procédure de calcul proposée 
est caractérisée par le 


TH£OREME 6.1. Sous toutes les hypothèses du n° 1 la suite x;, 
k — 0, 1, ..., générée par l'algorithme selon la formule (6.4) con- 
verge vers x, solution du système (6.1), et 
a) œ&, — 1 pour des k suffisamment grands; 
b) F (z,41)  LC?F® (x,) pour des k suffisamment grands; 
c) quel que soit q, 0 << q << 1, il existe un numéro k (q) tel que 
» q2 
[x — zx Se" (6.6) 
pour tous les k > k (q). 
DEMONSTRATION. La démonstration est immédiate pour F (x) < 
< 0 à un pas. Aussi nous supposerons F (x,) > 0 pour tous les k. 
Commençons par montrer qu'il est toujours possible de prendre 
un a; en se basant sur la condition (6.5). Quand i5E€T5(z;) on a 
moyennant la formule de Taylor 
fi (a + Gps) = fi (tn) + @ (Fi (2x + 0iapx), pr) = 
= fi (zx) + (fi (2x), Pr) + @ (fi (tr + GG pr) — fi (Tr), Pas 
où 0S6,<1. Du moment que p, vérifie (6.2), 
(fi (za); Pa) — fi (an). 
Ensuite, 
(fi (za + Oiapr) — fi (zx), pa) || Pa [Il fi (ze + Gi pr) — 
— fi (ca) I Pa] Biæpa 1 LL |] pa |. 
On obtient donc à l’aide de (6.3) 
fi (a + apr) fi (ta) — fi (er) + EL || pa [PK 
<(A—a)F (x) + a Le?2F? (x). (6.7) 
Pour iEJT, 16 JS (x). fi (x) < F (xx) — Ô et donc 
fa (rr + apr) = fi (er) + @ (fi (za + Giapr), Pa) 
<F(x)—6+aK| mn i<F(r) —8+aKCF (x). (6.8) 


De même pour iEJi(r;) on a 


| fa (za + apa) | (1 —@) F (2x) + SLCF? (x) (6.9) 
et pour ié 8 (zx) 
| fi (ax + apr) F (zx) —6 +aCKF (x). (6.10) 


Notons que 
(1—a)F(x)2>F (x) —6+aCKF (x), 
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si aa, où 
en 5 
RO A+CA)F (en) | 
Les relations (6.7)-(6.10) entraînent donc pour a<@} 
Far + apr) <(1—@) F (xx) + TLCTF (x) 


ou 
Fr +apr) <F (2x) —@F (xx) (1 — aLC?F (xx)]. (6.11) 
Et si a<aË avec 
e 1—e 
Rp = 


© LC?F (zx) ? 
alors 1—aLC?F (x,)>e, et (6.11) se récrit donc: 
F(rxt apr) SF (x) — er (x). 

az min {a}, ai}. 


On conçoit maintenant qu’en divisant @& par deux à commencer 
par &œ— 4 on a l'inégalité (6.12) après un nombre fini d'essais et 
&, choisi vérifie 


(6.12) 


: 1 14 : 
a > min { 1, a: ai} ; (6.13) 
Cela démontre du même coup la possibilité de choisir &, à partir 
de la condition (6.5) et le fait que ce choix s'effectue en un nombre 
fini d'opérations. 

Montrons que F (z,;) — 0. En effet, (6.5) implique la décroissance 
monotone de F (x:). On déduit donc des formules pour ak et «; que 
ces quantités croissent avec k. La formule (6.13) permet donc de 
conclure à &, > à > 0, de sorte que 


F (tnt) & (1 — eux) F (2x) < (1 — ea) F (xs). 


Aussi F (x) (1 — ea)* F (xo), d'où F (zx) 0. Mais on a alors 
ah —> Loo, @Ëf —> +oo, comme cela résulte de suite des formules 
donnant ces quantités. On établit donc moyennant (6.13) que ax = 1 
pour des * suffisamment grands. Or, pour de tels À on déduit de 
(6.11), avec & = 1, 
F (tn+1) < LOF (x). (6.14) 

Ainsi, nous venons de démontrer les affirmations a) et b) du théo- 
rème. 

Nous sommes maintenant autorisés à dire qu'il existe un &, tel 
que ax = À pour #4 > k, et qu'on ait (6.14). C’est pourquoi, on a en 
vertu de (6.3) 


ser 
[rat — ml = pal & CF (x). Ce 
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Posons v, = LC?F (r,). Alors v, +0 et (voir (6.14)) vis, & 02. 
Soit qg tel que 0 << g<< 1. On peut alors trouver un # (q) tel que 
Ur <q pour k > k(q). Donc v,:, < qu, k > k(q). D'où 


—k(q) 2h—h(q) 


a LUE <q » Um, M>k>k (q). 


Cela permet d'obtenir l'estimation 


m— i m— 1 
1 
rm nl D Iru-cl<z D 
3=kh j=RkR 


Il en résulte (d’après le critère connu de Cauchy) la convergence de 
la suite z, vers un point x. Comme F (z;) 0, on a F (x) = 0, 
i.e. z est solution du système (6.1). Par passage à la limite pour 
m — oo dans (6.15), on obtient de plus 

g2* —h(g) 


zx rarement 


c.q.f.d. 
3. Remarques. 


REMARQUE 1. Soit à résoudre le système de x équations f; (x) = 
= 0, i—14,...,n, où x E E". Alors 
hi(z)>ZF(x)—6, i—1,...,n, 
F(x)= max |f: (2) | 


pour Ô arbitraire à condition que x soit suffisamment voisin de la 
solution x. Aussi Ÿ8 (x) = {1, 2, ..., n} et le système (6.2) prend 
la forme 


AG) p)+fh(@) =0 i=1,...,n. (6.16) 


C’est pourquoi la technique proposée coïncide tout simplement avec 
la méthode de Newton dans laquelle on itère suivant la formule 
Zp+y = Tr “+ p (x) avec p (x) solution du système (6.16). La condi- 
tion de convergence de ladite méthode est la régularité en x de la 


matrice f’ (x), où f’ (x) est une matrice nr X n dont les lignes sont 
formées par f; (x). Dans ce cas p (x) = —(f" (x))-! f (x), f (x) étant 
un vecteur-colonne de composantes f; (x). Cette dernière formule 
entraîne 


Ip () I SIC GNT ENS Col GIE (2). 
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où C, est une constante. Cette inégalité montre que (6.3) a lieu dans 
un voisinage du point x. 

Le théorème démontré implique donc la convergence locale de la 
méthode classique de Newton pour un système de nr équations à 
n inconnues. 


REMARQUE 2. Si l'on a une équation f (x) = 0 à n inconnues, 
le système (6.2) s'écrit comme 


f(x), p) + f(x) = 0, (6.17) 


et on demande de trouver la solution de cette équation qui soit 
munie de la norme minimale, i.e. trouver le minimum de ||p |[* 
dans les contraintes (6.17). La règle des multiplicateurs de Lagrange 
aidant on obtient facilement qu'alors 


p (2) = or (x), 


d'où 
lPOI= mont © 


II est clair que la formule (6.3) est vraie si [| f” (x) || y quels que 
soient x. 


REMARQUE. 3. La recherche du vecteur p (x) à chaque pas est 
liée à celle du minimum de {| p | sous les contraintes (6.2). C’est 
un problème de programmation quadratique. On le résout en s’inspi- 
rant des indications du $ 5 relatives au problème auxiliaire de 
programmation quadratique intervenant dans la méthode de linéari- 
sation. 


4. Conditions suffisantes de convergence. L'hypothèse fondamen- 
tale (6.3) qui garantit la convergence de l’algorithme se prête mal 
à une vérification. Les conditions données dans ce numéro sont 
testées plus facilement. En particulier, la convergence est garantie 
dans le cas convexe si le domaine défini par (6.1) possède un point 
intérieur. 

Supposons que le système ne renferme que des contraintes iné- 
galité, i.e. il s'écrit 


f(x) SO, ie. (6.18) 

Le système auxiliaire (6.2) prend alors la forme 
(Fi (cp) + fi) <0, ie Ts (x). (6.19) 
Il est clair qu’il admet une solution pour F (x) > 0 à condition que- 
Gi (@),p)+F(D<0, ie Ja (x), (6.20). 


soit résoluble. 
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LEMME 6.1. Si F(x)>=>0, Le système (6.20) possède une solution 

Si et seulement si 
Li(z)=minf 2 AMfi(@)|>0, 
MP0 je Tax) 
où l’on minimise par rapport à tous les À; > 0 tels que 
>) M=t. 
iET gtx) 
Ceci étant, La solution p (x) de norme minimale du système (6.20) sa- 
tisfait à l'égalité 
= 1 
lPOI=ZS FE: 


D£EMONSTRATION. Soit À, > 0 tels que leur somme en i € Ÿ$ (x) 
soit égale à l'unité. Si p est une solution de (6.20), on a 


D Mix), p>F(x), 
ET (x) 
‘ou 


(— 2 Mfi(r) P)>F(r). 


iET g(x) 
Utilisons l'inégalité (rx, y) <||z||lly||}, il vient 


1 D Af@ilPl>F (a). 
ET gtx) 


Mais la dernière inégalité est juste pour tout choix indiqué de À;, 
donc 


Ls(@)lPr1>F(), 
i.e. La(z) > 0 et 
F (x) 
lPl>< er: (6.21) 

Nous avons donc établi la nécessité. 

Admettons que La (x) > (0. 

Considérons le problème: trouver le minimum de p sous les 
contraintes 


(fix), p}+F(z)—p<0, ie Ja (x), (6.22) 
HPIISro ro= LS > (. 


C'est un problème de programmation convexe pour lequel sont 
immédiates toutes les conditions du théorème de Kuhn et Tucker, 
-en particuler la condition de Slater. Soit p,, p, une solution. Appli- 
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quons le théorème de Kuhn et Tucker. Il existe alors des À, > 0 
tels que 
Po + à A (fix), po) + F (2) — po) < 
1EJ 5 (x) 
<p+ D Mi), p)+F(x)—0) (6.23) 
ET 5(x) 
quels que soient p, ||p [| < ro, et p. De plus 
As (Gi (x), Po) + F (x) — po) = 0, ie Ts (x). (6.24) 
p étant quelconque (6.23) entraîne de suite 
D) D M=1, 
ET (x) 
et (6.23) se récrit en vertu de (6.24): 
Po À Mfi(z), p)+F(a). 
ET 8 (x) 
Minimisons par rapport à p || p || < r, dans le second membre de la 
dernière inégalité, il vient 
PoS —rol D Mfi(x)+F (2) —roLe(x) + F(x)=0. 
ET g(x) 
Ainsi, Po & 0, i.e. le vecteur p, vérifie le système (voir (6.22)) 
(f(x); Po) + F (x) <poS0, ET (x), 
et [| Poll Sro= F(x)/Ls (x). Mais il découle de (6.21) 
F (2) 
Il Po >: 
Donc 
F 
I Poll = RE 
et le vecteur p, est solution de (6.20). De plus, (6.21) montre la 


minimalité de sa norme. Ainsi, po — p (zx), ce qui démontre le 
lemme. 


TusoremMEe 6.2. Soit, sous toutes les hypothèses du n° 1 sauf 
l'hypothèse fondamentale, L, (x) > y > 0 pour tous les x tels que 
O<F(:2)< F (x:). L'hypothèse fondamentale est alors satisfaite elle 
aussi, ainsi que toutes les conclusions du théorème 6.1 pour le pro- 
blème (6.18). 


D£MonNSTRATION. Puisque toute solution du système (6.20) est 
encore celle de (6.19), on a 


LP GS IP () Il. 
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En vertu du lemme 6.1, 


F 
POSE ETF: 


ce qui montre qu'on est dans les NE du théorème 6.1. 

Notons que la condition L, (x) > y > 0 est suffisamment na- 
turelle car elle exige l'indépendance linéaire des vecteurs j; (x), 
i € Ja (x). 

THÉOREME 6.3. Si f; (x) du probleme (6.18) sont des fonctions 
convezes continüment dérivables, le domaine défini par l'inégalité 
F (zx) < F'(xo) est compact, les gradients j; (x) vérifient dans ce do- 
maine la condition de Lipschitz et il existe un point x tel que F (x) — 


— y << 0, toutes les conditions du théorème 6.1 sont alors satisfaites 
pour Ô << —. 


DEMONSTRATION. Etant donné la convexité des f; (x), 
hH@>h@+((G)r—:2, ieJ- 
Quand i E fs (x), on a pou p=r—7x 
fi (+82 f(x) +8+ (f(x), p). 
Le (2)+8<F(x)+8=v+6<0 et f(x) +82 (x), 1€ T5 (1). 
onc 


0>y+5>F(x)+ (f(x) ph 178 (x). 
Posons y + ô — —e, il vient 

Gi (x), p) + (F(z)+e)  <O0, ETS (x). 
Or, cela signifie en vertu du lemme 6.1 que pour tous les z tels 
que F(z) << F (xo), F (x) + & > 0, le système (6.20) possède une 
solution et L;(xz) > 0. Faisant jouer la compacité du domaine 
F (zx) < F (xo) et la continuité on s'assure aisément que L,; (x) > 
> y > 0 pour tous les x tels que 0<F(z) < F (x). 

Toutes les conditions du théorème 6.2 se trouvent donc remplies, 

ce qui achève la démonstration du théorème 6.3. 


5. Résolution d’un problème de minimax. Soient données les 
fonctions f; (x), i = 1, ..., m. Formons la fonction 


F (x) — max fi (x). (6.25) 


Le problème consiste à trouver un point x € E" qui réalise le mini- 
mum de F (x). 

On voit que ce problème se ramène par introduction d’une varia- 
ble supplémentaire z"*! à la minimisation de f, (x, z"*1) = z"*1 


sous les contraintes 
fi; (æ)— xt <LO, i=1,..., m. 


On recourt donc aux méthodes des paragraphes précédents, notam- 
ment à la méthode de linéarisation. Notons qu'on agit de même 
pour le problème de minimisation de F (x) si x varie dans un domai- 
ne Q défini par un système d'égalités on d'inégalites. 

Dans ce numéro nous nous occuperons d’une méthode de mini- 
misation de F (x) quand x € E". Il s'agit de la méthode de linéarisa- 
tion légèrement modifiée. 

Faisons correspondre à tout point x le problème auxiliaire 


min (8+—| pl). (6.26) 
GGhPp)+fi(@—B<0, ie Ts (x), 
où ô 0 et 


Jo) = ti: 1<i<m,fi(2)  2F(x —6}. 


Notons que (6.26) est un problème de programmation convexe qui 
vérifie la condition de Slater : à condition de choisir un B suffisam- 
ment grand, les contraintes (6.26) sont satisfaites strictement. 
Appliquons directement le théorème de Kuhn et Tucker sous forme 
différentielle, il vient que p (zx) et B (x) sont solution du problème 
(6.26) si et seulement si il existe des u! Z0,i€J;s(x) tels que 


> u = 1, 
1€.J 4(x) 
p{x)+ D» u'fi(xr)=0, (6.27) 
iCe gtx) 


u'((fi(x), pP() + f(x) —B(x)=0, € Js(x). 
Ensuite, le point p —=0, B—=F(x), vérifie évidemment les 
contraintes (6.26). Donc 
B()+< | P GIP (). (6.28) 


Formulons l'algorithme de résolution du problème. Soit x, une 


Lot initiale et supposons construits les points Ti, } — 
—0: 1, , k. Alors 


Th+i = Th + ŒnPhs (6.29) 
avec Pr, = P On choisit «, égal à 2%, où i, est le premier des 
indices i = 0, ..., pour lequel 


fi Phoebe Le <e<1i. 
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On a donc la condition 
F (tn) <F (xx) — ane || pa [P. (6.30) 
Enonçons les conditions de convergence de l’algorithme. 


LEMME 6.2. p (x) — 0 si et seulement si on a au point x les con- 
ditions nécessaires de minimum de F (x). 

On le démontre en rappelant les conditions nécessaires de mi- 
nimum de F (x) et en raisonnant comme pour le lemme 5.1. 


TæeorsME (6.4. Etant donné des fonctions] f; (x) continüment 
dérivables, un domaine 


= {x F() < F (xo)} 


borné et f; (x) vérifiant dans Q la condition de Lipschitz de constante L, 
tout point limite x, de la suite zx, k — O, 1, . .., vérifie les condi- 
tions nécessaires de minimum de F (z) pour x E E". Si f;(x) sont 
converes, zx, est solution du problème. 


DEMONSTRATION. Comme pour le théorème 5.1, on trouve sans 
peine les estimations 


fa (ar + pa) fi (ar) + (fi (ar); Pa) + CL || pa (P, 
Î € Je (zx), 
fi (x: + ap) <F (zx) —Ô0+ak Il Pa [l, LÉ Te (Ta) 
avec À = max|| f; (x) ||. 
Utilisons la condition (voir (6.26)) 
Ui (x), Pr) < Br — fi (an), Ba = BP (2x), 
ainsi que (6.28). La première estimation s’écrit alors 
fa (Zn + apr) (1 — @) fi (2x) + Ba + a2L |] p, [<< 
LF(z:x)—Q@(F (zx) — Ba) + LI] pi, [<< 
<F (2x) —+- || pa (2 + &2L || pa IP. 
Puisque 
Fe) —< | (> (+) —8+aX || rx || 
pour 0Sa<ak, ak— re on a 
Uk ll (Æ+Z all) 


fax + ap) SF (2x) — +] pa |P + @2L || pa lE (6.31) 


66] METHODE DE LINÉARISATION 207 


quand 0<Sa<ak. Donc 


F(ax+ apr) <F (xs) —@ |] px |F [+-eL|, O<a<ak. (6.32) 
Si 


é— 
0LSa<a, A = min L1. &k, LC |. (6.33} 
on a 
F(xr+ apr) <F (zx) — || pa lle. 
11 en résulte de suite l'inégalité (6.30) lorsque 


> + (6.34) 


après un nombre fini de bipartitions de l'unité. 

La condition (6.30) entraîne immédiatement @z || Pr | — 0. 
Or, cela signifie || p. [| —0. En effet, & > y > 0 car [|p (x)||i 
est majoré dans Q en vertu de (6.27). Mais il découle de (6.33) et 
(6.34) que œx est minoré par une constante positive. 

Ainsi, pr —0. Soit x, un point limite de la suite. On dit, sans 


restreindre la généralité, que zx; — x,. Comme ui, iC gs (Zr), Sont 
positifs et donnent au total l’unité, on estime de plus, en posant 


ui =0,ié Jar), que ui +ü', a >0 et 
2 ui—1. (6.35) 
{= 

Récrivons (6.27) et (6.26) pour les points z;: 


Pr + 2 ukfi (xx) =0, 


uk (CF (zx); Pr) + fi (zx) —;) _—… 0, = 1, °c. M, (6.36) 
(fi), Pa) + fi (ar) Sr, EE Te (zx). 
La dernière inégalité entraîne 
Pr > fa (zx) — Æ Npr = F (xx) — KNpall 

à condition de choisir iCJ4(x:) de façon que f; (zx) = F (x). 
Mais (6.28) montre que By < F (xs) — 7 Il Pr IF. Donc B, —+F (x). 
On obtient par passage à la limite dans (6.36): 

D uf: (z,) = 0, 

i=1 


u'(fi(z)—F(z)=0, i=1,...,m (6.37) 
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Ce qui constitue justement les conditions nécessaires pour que F (x) 
atteigne son minimum en zx, (voir ch. I). Si f; (x) sont convexes, 
ces conditions sont également suffisantes, ce qui démontre le théo- 
rème. Quelle est l'estimation locale de la convergence de l’algo- 
rithme? 


THeOREME 6.5. Soient x, un point de minimum de F (x) et f; (x) 
des fonctions deux fois continüment dérivables. Soit de plus les gradients 
file), 1€ dot), où Jor,) = fiifi (x) = F(x)}, tels que les 
différences 


LÉ (xs) nn fi (x,), L _ Lo» Lo € Jo (ze), 


soient linéairement indépendantes, les multiplicateurs ü° strictement 
supérieurs à O pour i € Jo (x) et (y, L” (x, ü) y) > 0 pour tous les 
y Æ 0. Ici 


m 


L(z, u)= À wifi (x) 


et L” (x, u)est la matrice des dérivées secondes par rapport à x. Il existe 
alors pour un Ô => O0 suffisamment petit et «a > 0 un voisinage du 
point x, tel que le processus 


Th41 = TR + ap (zx), k — 0, 4, . 
converge à partir de toute approximation initiale x, de ce voisinage 
et zx —m | &CY, où 0<q<1i. 


DEMOXSTRATION. Nous n'en donnerons que des grandes lignes 
vu que la démonstration est complètement analogue à celle du 
théorème 5.4 et s’y ramène en fait. 

En posant 


TRUE Te) (ie) pa) + fe (0 —B (= 0}, 
on montre (voir lemme 5.2) que pour Ô faible Ja (x) = Jo (zx) — 


— ,J (x) pour tous les x voisins de x,. Il résulte donc de (6.26) et 
(6.27) que le vecteur p (x) et les multiplicateurs de Lagrange u‘ 
correspondants satisfont au système d'équations 


p(x)+ 2 ufi(x)=0, 


iEJ (xx) 
(fix), p(rn))+ f(x) =B(x), iETo(rs), (6.38) 
D O u—1. 
iCJ (xs) 


Soit i, un indice de Ÿ, (x,) et 


ho =h@—-f@), (= (@). 
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Le système (6.38) équivaut alors à 


p(z)+f(x)+ Z uifi=0, 
ie J {xe) 
Gi), PH)+R()=0, ie TX), (6.39) 
Jo (rs) Da Jo (xs) NX {io} 
Or, on constate une équivalence totale entre celui-ci et les systè- 
mes (5.51.1) et (5.51.2). Comme la démonstration du théorème 5.4 
s'est ramenée à l'étude des propriétés de p (x), solution de (5.51.1), 
(5.51.2), il en résulte que la démonstration ultérieure du théorè- 
me 6.5 se réduit à une vérification des conditions du théorème 5.4. 
Mais on vérifie aisément que les hypothèses de celui-là les garan- 
tissent complètement pour les fonctions f;, et le théorème se trouve 
démontré. 
L’analogue du théorème 5.5 est le 


TH£onsME 6.6. Si, dans les conditions du théorème 6.5, Les 
indices de l’ensemble Ÿ, (x) sont au nombre de n + 1, pour Ô petit 
la convergence du processus 


Zh+1 = Th + D (tx) (6.40) 
vers Le point x, est quadratique. 
DEMONSTRATION. Dans le cas considéré le vecteur p (x) est défini 
de façon unique par le système 
Pi (x), pG&) + (2) =0, 1€ Jo(rs), 


car il y a indépendance linéaire des f} (z), i€ 51 o (TZ), pour zx voisins 
par hypothèse de x,. Le processus (6.40) n'est donc rien autre que la 
méthode de Newton pour le système 


fi()=0, ie Fr.) (6.41) 
qui a la convergence quadratique au voisinage de z, en vertu du 


théorème 6.1 et de la remarque 1 du n° 3 de ce paragraphe. Notons 
que le point x, vérifie (6.41) car jf, (z,) = F (z,), i E Jo (te), et donc 


f: (z,) — Ïi (z,) ie fi (z,) — O, L € To (z,). 


$ 7. Accélération locale de la convergence 


On a établi au $ 5 que la méthode de linéarisation converge en 
général en progression géométrique. Cette vitesse peut ne pas suffire 
dans certains problèmes, d’où la nécessité de l’accélérer. 

Ce paragraphe fait connaître des techniques qui permetten de 
le faire si l’on dispose d’une approximation suffisamment bonne de 
14—01608 
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la solution. Cette dernière restriction désavantage le processus mais 
on ne connaît malheureusement pas de méthodes avec lesquelles on 
construirait, à partir d'une approximation de départ quelconque, un 
processus ayant une convergence asymptotiquement superlinéaire 
comme c’est le cas du problème de minimisation de fonctions sans 
contraintes. 

Les méthodes ci-dessous s’inspirent de l’idée suivante. Le pro- 
blème de minimisation se ramène à un système d'équations non 
linéaires qu'on résout par la méthode de Newton ou par l’une de ses 
versions. Le procédé exposé à la fin du paragraphe part directement 
de cette idée, i.e. on écrira des conditions nécessaires de minimum et 
on appliquera aux équations obtenues la méthode de Newton. Ce pro- 
cédé présente plusieurs défauts dont le principal est la nécessité de 
calculer les dérivées secondes des fonctions originelles. I] n’est donc 
utilisé que dans des problèmes où ce calcul se fait aisément. 

L'idée de base d’une autre méthode est que le point x, est solu- 
tion du problème de minimisation (5.1) si et seulement si il vérifie 
l'équation p (x,) = O0 avec p (x) solution du problème auxiliaire 
(5.4). On exposera une technique qui permet de résoudre le système 
d'équations non linéaires sans calculer les dérivées et qui converge, 
nous l'avons dit, à partir d’une approximation initiale suffisamment 


bonne. 


1. Position du problème. Formules fondamentales. Soit à résou- 
dre le système d’équations 


où p (x) est un vecteur de composantes p° (x), i = 1, ..., n,x € E". 
Notons que p (x) est une fonction vectorielle arbitraire qui n'est 
pas liée pour le moment à un problème de programmation mathé- 


matique. 
Soit z, solution du problème (7.1). Supposons que p (x) est déri- 
vable dans le voisinage de x, et la matrice des dérivées 


po (ER 
1 


vérifie la condition de Lipschitz, i.e. 


Ip") —p'UU<Liz- y, 


toutes les normes étant euclidiennes. | 
On estime sans nuire à la généralité que x, = 0. Notons 


p'(0)=4, w(r)=p(x)— Az, 
o(z, y) = = rro- P(y)— A (z—y)]. 
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Supposons la matrice À régulière de sorte qu’on a les estimations 


m lIzll Il Azl <Mlzl, (7.3) 
où M >m >. 


LEMME 7.1. On a Les estimations 


Lo HI<CIzIF, Îo (, y) < C2 max {Nzll, [y |}. 


DEMONSTRATION. Soit pt” (x) gradient de p' (x). On a alors selon 
la formule de Taylor 


p'(z)=p" (0) + (pi (0), x) + (pi (2) — pi” (0), x), 


avec z — 6x, 0<6<1. Utilisons le fait que p'(0) — 0 et la 
condition de Lipschitz pour p” (x), il vient de suite 


Ip‘) —Œp"(0), DI<LIzl, i=1,...,n. 
D'où la formule 
Lo (x) = Ip (x) —p' Oz < Cl zx. 


Ensuite 
pi(y)=p'(x)+ (pi (x), y—x) + (p (z)— pi (x), y—2), 
où z2—0r7+(1—60)y, 0S6<1. Donc 
pl (y) pi(z)— (pi (0), y—x)= (pi (x) — pi(0), y—x)+ 
+ (pl (2) — pi (x), y— x), 


d’où l’on obtient par de simples transformations et compte tenu de 
la condition de Lipschitz : 


LP (y)—p'(z)—{(pf (0), y—2) IL zllly-zl+Liz-z y 
= Lly—zl(lzi+({—68)[y—z1)< 
<Lfy—zl((2—8)1xz1+(1—08) [y < 
<3L||y—zx|| max {|| x ||, || y|l}. 


La dernière inégalité entraîne de suite la deuxième affirmation du 
lemme. 


Supposons construits les points x,,x,, ..., x, et soit p (x:) — 0, 
: — 4, ..., n,et e, les vecteurs unités du k-ième axe. 
Posons 


Ur — Th + |] P (xx) Iles» 
Th = Yyn — Tr = || p (x) ler, 


. 2 = P(ya)—p(rn), k=1,...,n 
14% 
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Introduisons une quantité qui mesure l'indépendance linéaire d’une 
famille quelconque de vecteurs b,, # — 1, ..., n. Posons 


A (b:, ..) bn) = min D amer 


i=1 


On voit sans peine que À (b,, ..., b,) > 0 si et seulement si les 
vecteurs b,, ..., b, sont linéairement indépendants. Notons de 
plus que 


1 
A (es, Mod 


LEMME 7.2. Il existe un voisinage du point x, = 0 tel que 
Az... Zn) 2ZY>0 
si et seulement si z;, . .., x, se situent dans ce voisinage. 
DEMONSTRATION. On a par définition de «w (x, y) 
28 = Àrx + © (ya, Ta) [ra | = IP (tn) [ (der + © (Yn, zx)). 
Donc 


Zk Aex+@(yr, Zn) 
Il Aer + © (yr, zx) Il” 


Il zx (l 


Si Zzr 0, on a 


Zh 


nn 
EX Il 4ex [1 
On constate cependant sans peine que À (z,, ..., z,) dépend con- 


tinûment de z4 || z, ||"! On a donc, pour des x, suffisamment pro- 
ches de O0, 


A (zu... 21) > + A (A6, ..., Aën). 


Mais A (4e,, ..., Ae,) > 0 car les vecteurs 4e;, k = 1, ..., n, 
sont tout simplement les colonnes de la matrice À, et, étant donné 
la régularité de celle-ci, ses colonnes sont linéairement indépen- 
dantes. Ainsi, 


Al. 2) > A (46, .…, Aen) > 0 


pour tous les x, d'un voisinage de z, = 0, c.q.f.d. 

Soit ô > 0 le rayon d'un voisinage de zéro où sont vrais les 
lemmes 7.1 et 7.2, et soient x;, . . ., zx, des points choisis dans ce 
voisinage. Trouvons les quantités B;, à = À, ..., nr, à partir du 
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système d'équations 
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— P(Tn) = 2 Bar - 
R=1 


Par suite du lemme 7.2, il 


possède une solution. Posons 


ñn 
Tnt1= In + à Bars 
et évaluons la norme de x,,,. Comme 
P (Zn) = Aïn +0 (Zn), 
zx = Ary + © (yx, ti) Îlra ll, 


(7.4) fournit 


— ATn —Q (In) = 2 Px Ar, F2 Ba (y, za) [lra || 


ou 


AT = — (Zn) Ga à B:@ (Un; Th) Î Th Il. 


Il découle de la derniere égalité 


M || Zn+t |A ATns || KO (Zn) | + 2h À Ba [ra IT © (Ye, za) Île (7.7) 


Mais en vertu du lemme 7 


1 
Lo (yr, zx) 1] Ce max {|| ya ||, Ï Th |[} = Ce max {|| (2x + 


+] p (2) Île) ll, [za << Ce (za +2 (&x) 1). 


Dans le voisinage considéré 


LP (2) = 142 +0 (2) M 2x fl + Ci À] za I. 


Aussi 


11 (Un, 2) IR Ce A +M+C) [xl = Cs] 2x ||. 


L’estimation (7.7) se récrit 


/ ñn 
anal [Ci lien 14 Ce max al D 1Balllra 
be k=1 


Notons ne 


PES — TaT [(Zisat)> 
= À 


moyennant cette inégalité : 


k=1 DILTIE 


> À (Z1, CR 


.» 35) DILTEN 


(7.5) 


(7.6) 
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Compte tenu de (7.4), on a 


Ip (æn) ZA Gus +. 2n) (D BK [2x 1). (7.9) 
Ensuite, 
2x 1 = 1 (Are + © (y, 2) ra I) 2 Ar ra lo (, #4) 12 
>1lrall(m— Cal x) 2Zlral(m—Cs max ||x, ||). 
1<RA<n 
Donc 
2 Ba ll2x 12 (25 18x11 re 11) (me —Cs max |] zx I). 
Si | ou 
max ||, || << m/C3, (7.10) 
1<hk£n 
l'inégalité (7.9) fournit alors 
< IP (zn) 1 : 
D | Pr | l L I<3 (21, 7 Zn) (n—Cs max Il TR 1) CE) 
kei 1<k<n 
Vu que 
IP (&n) = 1 Atn + © (22) SAT | a 1 + Ci 1 zn Ci I æn |, 


(7.8) se récrit finalement compte tenu de (7.11) et du lemme 7.2: 
C3 max [Iz || C4 


1 n m 
less 1 à lle + Se (7.12) 


Y(m—Ca max || zx ||) 
1£<R<n 
Enonçons le résultat obtenu sous forme du 


LEMME 7.3. Si les points xx, k = 1, ..., n, sont choisis dans 
un voisinage de x, — Ô qui vérifie les conditions des lemmes 7.1, 7.2 
et l'inégalité (7.10), on a l'estimation (7.12). 

2. Algorithme. Formulons l'algorithme de résolution du sys- 
tème (7.1). 

Choisissons les points de départ x;, za, ..., z,. Les points 
Tir + +1 Tnr + + +, Th étant supposés construits, z:+, est généré par 
la formule suivante : 


Tati = Th + à Bérntis (7.13) 


* 


où 
Ty = | P (tj) M'emeps Y5 = Zi + F5, 25 = P (5) — p (x), 
et les quantités Bi, i — 1, ..., n, se définissent par le système 


— P (x) 2 Bizn-nts- (7.14) 
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Le calcul de l'indice m (j) obéit à la règle suivante: si j = /r + p, 
1<p<n—1, avec L entier, alors m (j) = p, et si j — in, on 
a m(j) = n. 

Ainsi, les vecteurs r1, re, - . ., r, Sont proportionnels aux vec- 
teurs unités des axes de coordonnées pris dans l’ordre cyclique. 

Comme il résulte des formules citées, le schéma de l'algorithme 
est assez simple. Il comprend à chaque pas le calcul de p (x) aux 
points z, et y, et la résolution du système (7.14). 


TuéortME 7.1. Soit ô, > 0 tel que les x, || x || < 00, vérifient 
les conditions des lemmes 7.1, 7.2 et les inégalités 


m—Glz|>5, (7.15) 
f[c+e]<t. (7.46) 

Etant donné zx, ... , x, choisis de façon que || x, || < 60, À = 

— 1. ...,n, l'algorithme décrit converge vers la solution zx, des 


équations (7.1) et la convergence est superlinéaire. 


DEMONSTRATION. Montrons en premier lieu que || x; || < 6, pour 
tous les points x, générés par l’algorithme. En effet, si z,, . .., zx 
se trouvent dans le ô,-voisinage de x,, les points zy_n+1, Th-n+tes - - - 

.., æ remplissent les conditions du lemme 7.3 et on a donc l'iné- 
galité suivante qui est analogue à (7.12): 


CaCy max || zh-n+: Il . 
<n 


1 
EIRE lc I Te || + TUE = 


d'où, compte tenu de (7.15), 
IEEE vos ÎZa-n+s || Cs: (7.17) 
avec 
= +[c+ 2]. 
Mais ||zi-n+: || & 00 par hypothèse. Aussi 
ÎlZr+a M I Tr 1 60€ < I Tr 1 K 60; 


c.q.f.d. A condition de noter gs — Ô,C5, la dernière inégalité impli- 
que de plus 


Zr+a Go 2x Île (7.18) 


Comme q, << 1 en vertu de (7.16), il en découle l’estimation || x, || < 


< gk-r || x, ||, i.e. zx — 0, ce qui démontre la première affirmation 
du théorème. 
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On obtient ensuite à partir de (7.17) 


Î res || 
I za Il 


LC max Il Th-n+i Il. (7.19) 
1<i<n 


Etant donné que z, tend vers zéro, la dernière estimation signifie 
que 
Nul, 
ET 


Cette relation montre que zx; — 0 plus vite qu'en progression géomé- 
trique. Le théorème se trouve démontré. 

Evaluons la convergence d’une façon plus précise. Posons v, — 
= C5 llzr il. (7.17) se récrit alors 

Uni Ur MAX Up-n+i- (7.20) 
1<i<n 

Posons maintenant v; — max v;, j = 1, ..., n, et définissons 
. 1<i<n | 
Ur, k >> n, par la formule de récurrence 


Up+s —= Ur MAX l’h-n+tie (7.21) 


1<i<n 
On voit aisément que v, < v, pour tous les k. Puisque 
vu = Cs lt | L'Csôo = 40 LÀ, i — À, e ee 3 n, 
Ré « 3 * Ld e 
on a LG LA, i—=1Â,..., n, d'où la décroissance monotone 


de la suite v,. On le démontre fort simplement par récurrence sur k. 


Il en résulte max Uh-n+ti —= Vh-n+] €t (7.24) se récrit comme suit: 
LISA 


Up+1 = URlh-n+1° (7.22) 
Posons w, = In D On a alors 
Lh+4 = Up + Wpensy, EDR, 
w,=inv,, k=14,...,n. 
Les résultats d'Ostrowski ([191], théorèmes 12.1 et 12.2) entraînent 


EL ERES Ve (7.24) 


Uk 


(7.23) 


Ào étant la plus grande racine positive de l’équation 
p (À) = À" — A1 14 — 0. (7.25) 


Comme (1) = —1<0 et (A) >0 pour À importants, on a > 1. 
Il découle de (7.24) que, quel que soit e>>0, A —e>1, on 


trouve un numéro k(e) tel que ru ou RD o— 8. 
k 
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Puisque ’ nv, << 0 (Lx < Go << À), on a pour k>k (e) 


In Vas (A0 —E) in v, =In Dre) 


ou Das LUI 9, k>k(e). La dernière formule entraîne w,< 


— (R=— R(E)) = di 
LD . Mais la suite v, est monotone décroissante et 


Un Go<< 1. Donc 
mg gho-eR TH) LR (8). (7.26) 


THÉORÈME 7.2. Dans les conditions du théorème 7.1 il existe, 
pour tout e>>0, —Ee> 1, où Ào est la plus grande racine de 
AM— A1 4 —0, un numéro k(e) tel que n'importe quel k>œk4(e) 
vérifie l'inégalité 

IEEE JE gore Re, Go < 1. (7.27) 

DEMONSTRATION. Rappelons que vw = C:llzx ll, Ur v,. Le 

résultat cherché résulte de suite de ces inégalités et de (7.26). 


3. Aspects numériques. Application à un problème de program- 
mation mathématique. L’algorithme du numéro précédent est assez 
simple. Il n'exige à chaque pas que le calcul du vecteur p (x) aux 
points x, et y, et la résolution du système d'équations linéaires 
(7.14). En désignant par Zr la matrice de colonnes Zhentis À = 
= 1.,...,n, on peut écrire (7.14) sous la forme Z,B* — —p (x;), 
avec B* un vecteur-colonne de composantes ff, i—=1,...,n. 

Selon l'algorithme, les matrices Z, et Z,_, ne diffèrent que par 
une colonne : la colonne z,:, est substituée à z, et zr_nr;rn, in —1, 
à Zp-ntis à LS n — 1. On calcule donc pi+! par les procédés décrits 
aux n% 4, 5, $ 3, ch. II. Il n’est pas inutile de dire que ces procédés 
s'accompagnent de la propagation de l'erreur de calcul. Si la recher- 
che de p (y.) demande donc un effort mathématique sensiblement 
plus important que la résolution du système (7.14), on recourt à un 
programme standard de résolution de ce dernier pour trouver f 
et on se passe de formules de récurrence. 

Revenons au problème (5.1)-(5.2) du $ 5. Aux termes du lemme 5.1, 
il suffit, pour trouver le minimum local, de résoudre l'équation 
p (x) = 0, où p (x) est solution de (5.4). Sous les hypothèses (suf- 
fisamment naturelles) du théorème 5.4, les conditions du théorème 7.1 
sont vérifiées, en vertu des lemmes 5.2, 5.4, dans un voisinage suf- 
fisamment petit de la solution z,. Avec l'algorithme exposé dans 
ce paragraphe on peut donc accélérer la convergence de la méthode 
de linéarisation. On prend alors pour p (x) le vecteur p (x) qui est 
solution du problème (5.4). 
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4. Un problème de minimisation avec contraintes égalité. Consi- 
dérons le problème de la recherche du minimum de f, (x) sous les 
contraintes 

(= 0, LT, ::.:. 1m. (7.28) 
Soit x, solution du problème et supposons vraies les hypothèses 
suivantes. 

a) Les fonctions f; (x) sont deux fois continüment dérivables 
et leurs dérivées secondes vérifient la condition de Lipschitz. 

b) Au point x, les gradients f; (x,), t = 1, ..., m, sont linéai- 
rement indépendants si bien que les conditions nécessaires de mini- 
mum en x, sont vérifiées sous forme régulière (voir ch. I, $ 4). Il 
existe donc des multiplicateurs de Lagrange u, i — 1, ..., m, 
tels que 

fo (ze) + 2 u‘f; (z,) = 0, 
'É (x,) =0, i = À, Ses TL, 

c) On a les conditions suffisantes de minimum local, i.e. 
(y, L'(x,.u)y)>0 si yÆ0 et (fi(r,), y) = 0, i = 1,..., m. 
Ici L(r,u) = fo(x) + Duïf,(x) et L'(z,u) est la matrice des 

ii 
dérivées secondes de L (x, u) par rapport à x. 


THÉOREME 7.3. Etant donné les conditions a)-c), les suites x», 


up, i—1,...,m, k = 0,1, ..., calculées moyennant les formules 
de récurrence 


(7.29) 


L'{aus Ua) pa + D Aukfi (zx) + L' (xs, x) =0, (7.30) 
(fi (Ta); Pa) + fi (tr) =0, i=1, cs) M, 
Lht1 = Th + Dhs 


î î i ; 
Uh+1 — Uy + Au, i—1, ... m, 


convergent vers x, et u! respectivement à partir de toute approximation 
initiale xs, ui, i = À, ..., m, suffisamment voisine de la solution 
2e. u, i = 1,..., m, et la convergence est quadratique. 


DEMONSTRATION. Le processus défini par les formules (7.30), 
(7.31) n'est rien d’autre que le processus généré par la méthode de 
Newton appliquée au système (7.29). Il suffit donc de vérifier, 
comme l'indique la remarque 1 du n° 3, $ 6, que la matrice des 
dérivées premières des premiers membres de (7.29) par rapport à tous 
les arguments zx et u‘ est régulière par rapport à la solution. 

Désignons par f’ (x) la matrice de lignes fi (x), i = 1, ..., m; 
on voit sans peine que la matrice des dérivées premières des pre- 


(7.31) 
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miers membres de (7.29) s'écrit par blocs 


e Gdu) f* Ga) 4m 


f (zx) 0 
n+m 


Pour s'assurer de sa régularité, il suffit de montrer que le système 
homogène 


L'(x,,u)y+f*(zx,)u=0, 
jf (z,) y=— 0 
n'admet d'autre solution que 0. Ici ÿ € E" et & un vecteur de compo- 
santes &°, i — 1, ..., m. Ainsi, soit ÿ, & solution du système (7.32). 
Multiplions scalairement par ÿ la première équation (7.32), il vient 
en vertu de la seconde 
(y, L'(zs, u)y)+ (y, f* (a) u) = 
= (y, L'(a u)y)+ (f(x) y, u) = (y, L'(x, u) y) =0. 
Mais, par suite de l'hypothèse c), la dernière relation montre que 
y — 0. La première relation (7.32) prend donc la forme 


(7.32) 


f'(z)uz D'uïfi(z)=0, 


1=1 


ce qui n'est possible que si &' = 0, i —1,'.... m, du moment 
que les vecteurs f; (x,)sont linéairement indépendants par hypothe- 
se b). 

Ainsi, on a montré qu'ont lieu les conditions de convergence 
de la méthode de Newton, ce qui démontre du mème coup le théorè- 
me. 


$ 8. Méthode de pénalisation 


Il s’agit d’une méthode de résolution d'un problème de program- 
mation mathématique parmi les plus simples et le mieux connues. 
Son idée de base consiste à ramener approximativement le problème 
de minimisation avec contraintes à la recherche du minimum d'une 
fonction sans contraintes. La fonction auxiliaire est alors choisie 
de façon qu'elle coïncide avec la fonction à minimiser à l’intérieur 
du domaine ladmissible et qu'elle augmente rapidement à son exté- 
rieur. 

Admettons qu'on a à minimiser fo (x), x E E”, sous les contrain- 
tes 


fi (a) LO, i=1,..., m. (8.1) 
Toutes les fonctions f; (x), à = 0, 1, ..., m, sont continues. 
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Soit 
2, 1>0, t, t1>0, 
Po (£) = { 0, t < 0 . Pi (£) — 0, t < 0. (8.2) 
Formons la fonction 
px, r) 2 Po (Ji (x))- (8.3) 


On voit aisément que 


v(z,r) =0, xEQ, 


où 
Q = (x: (x) KO i=1,..., m}. 


Dans le cas de zx n’appartenant pas à Q,ona% (x, r) > Oetw (x, r) — 
—+ + oo pour 7 —+—+oco. Le problème auxiliaire est maintenant 
de minimiser la fonction 

F(z = f(x) ++). (8.4) 
On s'attend naturellement que la solution zx (r) de ce problème 
sera proche de celle du problème initial. Plus bas on en formulera 
les conditions exactes. 

Notons qu’on ne choisit nécessairement pas 4% (x, r) comme indi- 
qué plus haut. Il suffit que cette fonction jouisse de certaines pro- 
priétés générales garantissant la convergence de la méthode. Les 
propriétés de celle-ci diffèrent selon le choix des 4 (x, r). En parti- 
culier, si l’on pose 


4 (æ, r)=r max qu (fi (2) 


la méthode de linéarisation exposée au $ 5 peut s’interpréter comme 
méthode de la recherche du minimum de (8.4). Il n'est pas besoin 
dans ce cas, selon le $ 5, de faire tendre r vers l'infini. La fonction 
F (x, r) sera cependant non régulière. 

Dans le cas général, on construit F (x, r) de façon qu'elle soit 
régulière et qu'on puisse appliquer l’une des méthodes à conver- 
gence rapide du chapitre II]. Malheureusement, il faut alors faire 
tendre r vers l'infini, d'où certaines difficultés cachées qui, selon 
les auteurs, déprécient beaucoup la méthode de pénalisation. Nous 
discuterons plus loin ces difficultés et nous exposerons brièvement 
une autre technique dont l’idée s'approche de celle de la méthode 
étudiée. 

1. Justification de la méthode de pénalisation. Supposons qu'une 
fonction continue 7 (x, r) possède les propriétés suivantes : 

1) p(z,r)=0 si rEQ; p(z,r)>0 si réQ; V(z,, rr) + + 00 
Si Tr Lo, Lo D, rr —> + 00 ; 

2) w(x,r) croît de façon monotone avec r. 
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TH£OREME 8.1. Etant donné un ensemble 
Oc(r)={r: F(e,r)<C}, 
F (zx, r)=fo(x)+Ÿ (zx; r), 
compact, la fonction F (x, r) atteint non minimum m (r) par rapport 
à tous les x en un point x (r), m (r) < m, avec 
m = ou f(x), mr) -m, 
X£ 


et m (r) croît monotonement avec r. De plus, si x (rx) —Zo; À — oo, 
Tr — ©, alors x, est solution du problème de départ (8.1). 


DEMONSTRATION. Soit x un point de Q, C = f, (x). L'ensemble Q 
des x € Q tels que f, (x) < C est alors une partie fermée de l’ensem- 
ble compact Q= (r). En effet, pour z € Q on a, en vertu des propriétés 
de w(z,r), : 

fo (x) + D Gr) = fo (x) LC, 
ie. æESQ-(r). Il est cependant clair que le minimum de f, (x) 


sur Q doit appartenir au sous-ensemble Q. On recherche donc le 
minimum de la fonction continue f, (x) sur l’ensemble compact Q. 
Comme une fonction continue atteint son minimum sur un ensemble 
compact, il en résulte la résolubilité du problème (8.1). En raison- 
nant de façon analogue on montre que la fonction F (x, r) atteint 
son minimum "= (r) en un point zx (r). 
Soit x, un point de minimum de f, (x) dans Q. Alors 
F (ze r) = fo (x,) + Ÿ (ze, r) = fo (z4), 
car x, E Q et p(x, r) = 0 pour x E Q. Donc 
minF (x; r)=m(r) << m, 
ie. ri EQ,(). 
Considérons les ensembles 
Oh (7) = {z: fo (x) + D (a r) < fo (x,)}. 
Ils sont compacts par hypothèse et 
Qu (re) € Gr (ir 1 ra 
vu la croissance monotone de w (x, r) avec r. Soit maintenant r;, 
k —+ oo, une suite croissante de r et r; —+oo. On a 
Q}h (ra) œ Qm (ra). 
Puisque zx (r) € Q,, (r), tous les points zx (r;) sont éléments de 


l'ensemble compact Q,, (r,). On dit donc sans restreindre la généra- 
lité que la suite x (r.) converge vers un point z,. 
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Montrons que zx, € { et fo (zo) = m. En effet, si x, 6 Q, alors 
dW(z (rx), r,) = +oo et donc F (x (r;), rx) — + oo car 


fo(r(r))Z> min fo(x). 
xEQm(r1) 


Or, cela contredit F(x(r:),r1)}=m(r,)<m. Ainsi, m6 Q. 
Ensuite, 
mr) = F(z(rs), ra) =fo(t (ra)) + (x (rs), ra) 
< fo (Zo) + Ÿ (Lo, rx) = fo (Lo). 
D'où 
Lim m (ra) = lim (fe (æ (Pa)) + (æ (ra), ra) fo (æ). (8.5) 


Mais fo(z (rx))— fo (ro), donc 
ne (z (rx), rs) Jo (to) = fo (z (r»)) = 0. 


Comme (x, r)>0, il s'ensuit 
limv(z(r,:), r»)=0. 
Ainsi, LL 
Lu m (Tr) = un. fo (x (rx)) Fimv (z (Fr): ra) = fo (Lo) ZM. 


D'autre part, m(r,;) Sm, ce qui fait que lim m (r;,) = fo (to) 
ke 00 
< m. Comparons les deux dernières inégalités, il vient lim m (r,)— 
k—00 


— fo (xo) = M, ce qui achève la démonstration du théorème. 

Le théorème 8.1 montre qu’en ramenant le problème (8.1) à la 
recherche du minimum de F (x, r) pour r importants on s'approche 
de la solution de celui-là. Evaluons cette convergence dans un cas 
non convexe en renvoyant le lecteur, pour le problème de program- 
mation convexe, au numéro suivant. 


TH£OREME 8.2. Etant donné les conditions du théorème 8.1 et 
des fonctions f; (x), i = 0,1, ..., m, continüment dérivables, si 

1) le problème (8.1) admet une solution unique; 

2) la fonction 1 (x, r) est prise sous forme (8.3) et le minimum de 
F (x, r) est réalisé en un seul point zx (r) pour des r grands; 

3) en z,, solution du problème (8.1), les gradients f;(x,), i€ 
€ Jo(xe), sont linéairement indépendants et 


Jo(rs) = {i f(x) —=0, i=1,..., m}, 


alors lim z(r)—zx, et 


ro 


img (itM=gu, ist, ...,m, 


où u\ sont les multiplicateurs de Lagrange de (8.1). 
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REMARQUE. Rappelons que, selon le théorème 4.1 ($ 4, ch. I), 
le point x, remplit les conditions nécessaires de minimum sous la 
forme 


Îo (&.)+ 2 u"fi (z.) = 0, (8.6) 
ui>0, u'f,(r,)=0, i=1,..., m. 


D£EMONSTRATION. Commençons par montrer la convergence zx (r) —- 
— z,. Procédons par l'absurde. Il existe alors une suite r,; —+ oo 
telle que || x (r,) — x, | > 6, > 0. Puisqu'en démontrant le théo- 
rème précédent nous avons montré l’appartenance zx (r;) € Q,, (r:) 
et vu la compacité de ce dernier ensemble, on admet, sans nuire 
en rien à la généralité (on prend une sous-suite si le besoin en est), 
que (rs) 7, et il est clair que [|z,,. —2, | >Ô60>0. Il 
résulte cependant du théorème 8.1 que x,, est solution du problè- 
me (8.1). Nous en avons donc obtenu deux solutions différentes, 
ce qui est contraire à l'hypothèse. 

Ainsi, æ(r) x,. Démontrons la seconde affirmation du théorè- 
me. Comme zx (r) réalise le minimum de F (x, r), le gradient de la 
fonction 


F{z,r)= fo(x) + r à Po (F1 (x) 


doit être nul en'ce point. Après'de simples calculs on aboutit à l’éga- 
lité 


F'{(z(r), r)= f(x (r)) + 2 (2rq1 (fi (x (r)))) fi (x (r)) = 0, 
ou, avec les notations 
u'(r) = 2rqi (fi (x (r))), 


LR (8.7) 
fo (x) + 2 uf (rfi (æ (7) = 0. 

Notons à présent qu'étant donné z(r) —+zx,, on a f;i(x(r) <0 
pour i£ Jo(x,) car fix.) << 0 pour ié J,(x.). Aussi, pour r 
grands 


le (7) = 2rmi (fi (x (r)) = 0, ié To (x). 
Mais u‘f; (x,) = 0 et on a donc u° — 0 quand ié J, (x), ce qui, 
compte tenu de l'expression de u! (r), démontre l'affirmation du 
théorème pour i n’appartenant pas à J,(x,). 
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Ce que nous venons de dire permet de récrire (8.7) et (8.6): 
fR(z()+ 2 wWNfi(z(r))=0, 
1€ p(xe) 


fo(r)+ D uifi(z.)=0. 


1€) p(xe) 


(8.8) 


Si l’on prend en considération la convergence zx (r) —>zx,, la conti- 
nuité par rapport à x des f; (z,) et l'indépendance linéaire des f; (x,). 
i E Jo (te), on déduit sans peine de (8.8) u‘ (r) >u, ce qui achève, 
compte tenu de l’expression de u‘ (r), la démonstration du théorème. 


REMARQUE. Le théorème 8.2 entraîne que si ut > 0, ha) > 
> 0 pour r grands et f; (x (r)) converge vers zéro comme uir-!. Ainsi, 
une solution approchée viole toujours la contrainte f, (x) < 0 si 
ut > 0. 


2. Programmation convexe. S'agissant du problème de programma- 
tion convexe, la convergence de x (r) vers la solution cherchée z 
s'évalue plus exactement. 


TH£OREME 8.3. Si toutes les fonctions f; (x), i = 0,1, ..., m, 
sont convexes, une fonction 4 (x, r) de la forme (8.3) remplit les condi- 
tions du théorème 8.1 et on a en un point x,, solution du problème 8.1, 
les conditions nécessaires sous forme du théorème de Kuhn et Tucker, 
ie. il existe des nombres u* > 0 tels que 


$ 


fo G)< 2 wfi (x) + fo(x), Vz, (8.9) 
utfi(x,)=0, i=1Â,...,m, 

on a alors 

HSE si fi(z(r)>0, (8.10) 

ha )>h(e) SE, (8.11) 
où 

= V Dur 
1=1 


DEMONSTRATION. Introduisons la notation Ÿ,(x) — {i: f:(2) 20, 
i—1,...,m}. Comme 


F(z(r);r)=fo(z(r)) 2 Po (fi (x (Tr) Ko (ze), 
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il découle de (8.9) 


fe EN +r 2 tof fe FE f(x (+ Du (& tr), 


ou 


r à Po (Fi (Z ME 2 u‘fi(z (r)). 


Mais pour ié.Jo(x(r)) 

Po(fi(z(r)) =0, fi(z(r)) <0, 
et œ(fi(z(r))) = ff(z(r)) pour iE To (z(r)). On renforce donc l'iné- 
galité obtenue : 


r D RGGUDS Z ufhée()euy/ 2 f(x). 


SJ p(xtr)) iEJ otx(r)) 1EJ otxtr) 


Le dernier résultat est obtenu moyennant l’inégalité connue de 
Cauchy-Bouniakovski. 


Ainsi, 


f EE 1/ D AUS, (8.12) 


ie T otxtr)) 
d’où (8.10). . 
Quels que soient x, on a 


f(x) <fo(x)+ Duff (2) <fo(z) + Y u'f; (x) == 


+ ie T ox) 
=hétr XL fo > (Vrio-) + 
iEJ o(x) iEeJ (x) 


m a _ 
| i)2 2 . u2 
+ ST her Sp) + er nr 
i€J 0(x) = 
Ceci étant, on tient compte de l'égalité 


2 PAG)= 7 f(x), (8.13) 
. iEJ o(x) 
qu'on a par définition de (x) et Jo (x). Ainsi, 


is: 


R)E +7 S qe. 


15—01608 
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Mais (8.12) et (8.13) entrainent 


mn 


DOTE 
i=1 

C'est pourquoi 

u2 


hæt)>h(z)—2É, 
c.q.f.d. 


3. Aspects numériques. Agissant comme ci-dessus on ramène 
le problème (8.1) à la minimisation de la fonction F (x, r). La solu- 
tion approchée s'obtient maintenant par l’une des méthodes du ch. I]. 
Certaines circonstances sont cependant à retenir. Dans le cas des 
f: (x) non convexes, F (x, r) n’est pas non plus convexe en x. Cette 
fonction peut présenter donc des minima locaux. Or, dans tout 
l'exposé précédent il s'agissait de trouver le minimum global x (r). 

Nous avons vu que dans le cas de fonctions non convexes, toutes 
les techniques du chapitre IÏ permettent de trouver un minimum 
local de x (r) pour une mauvaise approximation initiale. Cela altère 
la convergence et nuit beaucoup à la qualité de la méthode de péna- 
lisation en ce qui concerne les problèmes non convexes. 

S'agissant d'un problème de programmation convexe avec pour 
+ (x, r) la fonction (8.3), F (x, r) est également convexe, fait qui 
s'établit sans peine. On n’a donc plus à surmonter la difficulté 
mentionnée. Mais un autre obstacle survient. Le fait est qu’une 
bonne approximation s'obtient en prenant un r suffisamment grand 
(cela résulte des estimations ci-dessus). Toutes les dérivées de F (x, r) 
par rapport à x sont alors grandes elles aussi parce que proportion- 
nelles à r. Lorsque nous avons analysé les méthodes à convergence 
superlinéaire exposées dans le ch. IT, nous avons établi que la dimen- 
sion du voisinage dans lequel la convergence devient superlinéaire 
est inversement proportionnelle à la constante de la condition de 
Lipschitz vérifiée par les dérivées secondes, ïi.e. ce voisinage est 
également petit dans le cas considéré, et même une méthode qui 
converge théoriquement bien à la limite peut s'avérer inefficace. 
Il y a plus. Comme la fonction ®, (t) ne possède pas pour t = 0 
de dérivée seconde, F (x, r) calculée moyennant + (x, r) de la formule 
(8.3) en est également dépourvue aux points x en lesquels f; (x) = 0 
pour un i. Mais si la solution zx, appartient à la frontière du domaine, 
c'est ce cas qui a justement lieu. D'autre part, toutes les méthodes 
rapidement convergentes exigent que la fonction à minimiser pos- 
sède des dérivées secondes au moins dans un certain voisinage du 
point cherché. 

Les difficultés énumérées se répercutent de règle sur les calculs 
réels, ce qui détériore la qualité de la méthode. 
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4. Méthode de Fiacco et McCormick. Cette méthode ne s’appli- 
que en fait elle aussi qu’à des problèmes de programmation convexe. 
Son idée est proche de celle de la méthode de pénalisation mais la 
différence est qu’on s'approche de la solution de l’intérieur du domai- 
ne et non pas de l'extérieur. 

Revenons au problème (8.1) en supposant que toutes les f; (x) 
sont convexes et qu'il existe un point x tel que f; (x) << O, i = 1, ... 
..., M, de sorte que l’ensemble admissible Q soit d'intérieur non 
vide. Formons la fonction 


P(ar)=h(-2 r>0, 
i=1 


définie à l’intérieur de Q. On vérifie aisément que P (x, r) est con- 
vexe par rapport à x à l’intérieur de Q. En désignant par x (r) le 
point de minimum de P (zx, r) dans Q on montre, dans des hypothèses 
assez générales analogues à celles des théorèmes 8.1 et 8.2, que 


lim z(r)—x,, 


r—++0 
: r set 
ne Gp 4: i=1,..., mm. 


Ainsi, la résolution approchée de (8.1} s’est encore réduite au 
problème de la recherche du minimum de P (x, r) sans contraintes. 

En ce qui concerne les particularités de ce problème auxiliaire, 
on n’a qu'à répéter ce que nous avons dit au n° 3 au sujet de la métho- 
de de pénalisation. Un exemple simple suffit pour les illustrer et 
montrer pourquoi même des méthodes efficaces de minimisation de 
F (x,r)et P (x, r) peuvent ne pas garantir une convergence rapide. 

Soit fo (x) = —x, f, (x) = x, x E E}, i.e. on demande de trouver 
le minimum de —zx avec la contrainte x < 0. Pour la solution évi- 
dente x, = 0, on a 

: 


P(z,r)= Te. 


Egalons à zéro la dérivée de P (x, r) par rapport à x, il vient 
P'(x,r)=—1+2=0, (8.14 


d'où x (r) = —Vr. Appliquons à (8.14) une méthode à convergence 
quadratique, à savoir la méthode de Newton, i.e. les approxima- 
tions seront générées par la formule 


P° (CE r) 
TH TR — p”’ (zx, r) e 


15° 
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Portons-y les expressions de P” (zx, r) et P”(x,r) et effectuons de 
simples transformations. Nous obtenons 


2Vr— = 
pan = VIE à, = +Vr. (8.15) 
ÏJ1 ressort de cette formule que l'écart de zx, par rapport à la solu- 
tion æ(r) = — Vr tend monotonement vers zéro pour les seuls 


points initiaux en lesquels 


21/ r— 
VS, 1. 


Comme zx, << 0 (l’approximation est cherchée dans le domaine 
z<O0),on a 
14 


put [ul <Vr. 


Ainsi, la dernière Ro montre que la convergence quadratique 
de la méthode de Newton n'est garantie que dans un domaine où x} 


s’écarte de la solution d'au plus V r, i.e. le domaine de convergence 
de la méthode tend vers zéro avec la diminution de r, et tel que 
sa dimension soit de l’ordre de grandeur de l'écart entre zx (r) et la 
vraie solution x, du problème initial. L’effort de calcul principal 
est donc fait pour tomber dans le domaine de convergence de la 
méthode de Newton, et là où celle-ci converge bien on n'en a plus 
besoin du moment qu'on dispose déjà d’une approximation dont 
l'écart de z, vaut celui entre x, et x (r). 


$ 9. Méthodes de projection avec reconstitution 
des liaisons 


1. Schéma de construction des méthodes. Considérons le problème 
de minimisation de la fonction f, (x) dans les conditions 


fi(æ) = 0, i=1,...,m, m<n. (9.1) 
Notons g = (f1, ..., fm)s Sg = {z:g(x) — 0}. Supposons que 
toutes les fonctions f,(x), fi (x), : Îm (&) sont continüment 


dérivables et que S, est une variété régulière ((r — m)- -dimension- 
nelle), i.e. en tout point zx ES, le rang de la matrice g” (x) vaut 


m (g' (2) = {A | a m,j—1,...,n,iest l'indice 


de la ligne). Par conséquent, on construit en tout point rE€S £ 
un hyperplan tangent à S, 

g (x) (x — x) = (9.2) 
Cet hyperplan (i.e. l'ensemble de point .— l'équation (9.2)) 
sera noté T (x). 


$ 
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En construisant les processus itératifs de résolution du problème 
formulé on s'inspire des considérations suivantes. 

Soit x, un point de S, tel que le gradient f, (xQ) ne soit pas ortho- 
gonal à l’ hyperplan T (x) (i.e. le point z,ne remplit pas une condi- 
tion nécessaire d’extrémum de f, (x) sur la variété S,). Il existe 
alors dans T'(x,) une infinité de directions de descente de f, (x) 
(i.e. une infinité de directions x — x, € T (x0) telles que (f (x), 
z — 9) 0). Supposons définie l'une de ces directions, disons 
Vo = To — Lo, et construit un point Lo (æ) = zo + av, tel que 
fo (Zo (&)) € fo (Ze). Le point x, ne satisfait plus aux équations de 
liaison (9.1). Si la valeur du paramètre «& est suffisamment petite 
(i.e. si la quantité || z, — x, (œ) || est faible) on construit cependant 


de diverses façons, à l’aide de x, (œ), un point z, € S, tel que 


fo (Zi) << fo (To)- (9.3) 


En effet, on peut choisir sur la variété régulière S, un point zx, (x) 
(qui n’est pas d’ailleurs unique) de sorte à vérifier la condition 


T1 (&) — To — To (x) — zo + wo (&), 


Lo (&) 1 = || z1(&) — 20 (&) = 0(11zo(&)— xl). (9.4) 


(Pour la démonstration rigoureuse utiliser le théorème sur l’appli- 
cation qui transforme l’un dans l’autre le voisinage du point Te 
dans la variété S, et celui dans la variété tangente T (x,), théorème qui 
est valable dans l'espace E”"; voir L. Ljusternik, W. Sobolew [86]). 
Lorsque (9.4) a lieu, on a par suite de la dérivabilité de f, (x): 


fo (21) = fo (&o) + (fo (Ze), T1 — 20) +0 (|| 1 —%o ||) = 
— fo (20) + (fo (20), Zo— 20) +0 (|| To— Zo ||) + 
+ (fo (20), Zi— Lo) +0 (|| ss — Lol) = fo (20) + 
+ (f6 (Xo), To — To) + Ci (|| To — To IDE 


D'où l'inégalité (9.3) si le paramètre & est suffisamment petit. 

En construisant un point x, € S, vérifiant la condition (9.3), 
nous avons en fait terminé l’itération d’un processus de descente qui 
génère les approximations successives de la solution. La k-ième 
itération du processus du type décrit comprend donc les étapes sui- 
vantes. 


1. On définit une direction de descente v, = 7, — x, de la 
fonction f, (x) dans l'hyperplan tangent T (x;). 
2. On fait un pas de longueur déterminée dans la direction 


VR: Ta) = 7x + avr (de façon à avoir fo (zx) < fo (Zx))- 
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3. Moyennant le point x; (&œ) on définit un point z;,:, € S, en 
lequel a lieu la condition fo (ze+1) << fo (Tr). 

L’exposé précédent montre qu’on se déplace du point zx, suivant 
différentes directions de descente dans le plan T (x,). Le choix de 
la quantité «a, et la partie finale de l'itération (la construction du 
point æz:+,) ne se définissent pas eux non plus de façon unique. 
À force d'effectuer différemment chaque étape de l'itération on 
construit toute une classe de processus de descente du type décrit. 

Voyons certaines façons dont on peut choisir v,. On peut prendre 
pour v, la projection de l'opposé du gradient —f, (x,) sur T (x;). 
Cette construction équivaut à la résolution du problème de minimi- 
sation de la fonction 


Fi(z)= (ta), z—m)=+lz—ml (9.5) 


dans la condition x € T (x,). En utilisant la méthode des multi- 
plicateurs de Lagrange on établit que 


ve = — (1 — 8% (ge) 8) fo (æn), (9.6) 
avec g° — 2° (xs). 
On construit des méthodes plus efficaces en choisissant en qualité 
de &, un vecteur minimisant la fonction 


Fi (a) = (f(x), 2— 2) ++ (fm) (z— 2x), 2—2%) (9.7) 


sur le plan 7 (zx,) (ce vecteur existe si F, est convexe). Puisque la 
direction de déplacement est ici construite en fait à l’aide de l’ap- 
proximation quadratique de la fonction à minimiser, les méthodes 
dans lesquelles v, est formé de façon décrite seront dites du second 
ordre. 

Considérons le procédé de reconstitution des liaisons (troisième 
étape de l'itération) dont nous nous servirons dans la suite. 

Supposons que le système d’équations (9.1) définit dans un voi- 
sinage de tout point x € S, une fonction y = y (z) avec y un m-vec- 
teur des axes de coordonnées et z un (n — m)-vecteur. On pose sans 
restreindre la généralité: y = (xl, ..., 2"), z = (2x"*t, ..., x”). 
Selon le théorème de fonctions implicites, pour que la fonction 
y (z) et ses dérivées existent, il faut qu'en tout pointz € S, le déter- 
minant 


() M 
e@l=|{L) 10, à 521... m. (9.8) 
Dans ce cas le point 2,+, — (z:+1, Yr+1) est généré par les formules 
Zh+1 = 28 + RPhs Yn+a = Y (Zrta) (9.9) 


où px = 2, — 2, est la partie correspondante du vecteur v,. La 
formation de la suite (9.9) n'exige pas qu'on explicite la fonction 
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y (z); il suffit de savoir calculer sa valeur (ï.e. résoudre le système 
(9.1)) pour z fixe. 

À part qu'elle permet la mise en œuvre d’un procédé de recons- 
titution des liaisons, la génération de la suite (9.9) s’interprète 
comme processus itératif de minimisation de la fonction œ (z) = 
= fo (z, y (2)). Il est évident que dans la condition (9.8) la recherche 
du minimum de  (z) équivaut à la résolution du problème de départ. 
Le vecteur p, (une direction de descente de la fonction œ (z)) est alors 
considéré comme solution du problème de minimisation de 1}, (z) — 
— PF, (2, y (2)), où F, (z, y) se définit par l’une des formules (9.5) 
ou (9.7) et la fonction vectorielle y; (z) par l'équation de liaison 
linéarisée (i.e. par l'équation donnant le plan tangent T (x;,)): 


Eu (n) (Y — Yyn) + 82 (tn) ( — 2x) = 0. 
D'où 


y (2) = yr — gp (zx) &z (ax) (z — 2x). 


Le fait que le vecteur p4 défini de manières décrites est une direction 
de descente de  (z) découle de #4 (z,) = @” (22), où 


D' (2x) = fo: (2x) + Y'* (2x) foy (2h); 
fu = (52; on): for = (2, …, 2), (9.10) 


Y'(2n) = —£y (2x) 8: (n)- 


Puisque le processus du type (9.9) peut s’interpréter comme méthode 
de minimisation de (z), on conçoit qu’on peut choisir pour p, 
le vecteur —®p’ (z,) auquel cas la suite (9.9) représente une méthode 
du gradient pour la recherche du minimum de o (2). 

Notons que le vecteur p, réalisant le minimum de la fonction 
F (z, y (2)), avec F, (z, y) défini par (9.5), se calcule par la formule 


pa = —(T + Y'* (zx) y (2x) p (zx). (9.11) 


La suite (9.9) avec p4 défini par (9.11) constitue donc elle aussi une 
méthode du type gradient destinée à rechercher le minimum de 
œ (z). Les méthodes du type gradient seront dites du premier ordre. 

Si l’on recherche le minimum de œ (z) dans les conditions néces- 
saires, on recourt en principe à la méthode de Newton et à ses varian- 
tes. Notons cependant que le calcul de la dérivée seconde p” (2) 
s'avère en général fort laborieux parce qu’exigeant la connaissance 
de la dérivée seconde de la fonction vectorielle y (2), i.e. en fait des 
dérivées secondes des fonctions f, (x), . . ., fm (2). 

Supposons à présent qu'on a, au lieu de (9.8), une condition 
moins sévère : en tout point x € S, au moins un déterminant d’ordre 
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m cest différent de zéro : 


TÉSIEC ea 


J = jrs Jos + + +s Jms ji EU, ..., nl}, RSS PR 0 


Les fonctions f; sont astreintes à des conditions plus faibles: les 
différents déterminants sont non nuls en des points divers de l'en- 
semble $S.. Dans ce cas, les coordonnées d’un point x € S,. qui 
constituent le vecteur z et la fonction vectorielle y (2). diffèrent 
en général selon le point de la variété S,: 5 = (x'm*1,...,xn), 
y = (r1, ..., æm). Ceci étant, on reconstitue toujours les liai- 
sons par les formules (9.9). Chaque pas du processus (9.9) s’interprète 
alors comme celui du processus de minimisation d'une fonction 
p(zim+t, ..., xin) pour laquelle le vecteur p, correspondant est une 
direction de descente. 

Nous nous occuperons plus loin des méthodes du type (9.9) et 
nous noterons y toute fonction vectorielle (x, ..., zm)et z le vecteur 
variables indépendantes (comme on l'a fait sous la condition (9.8)). 
Tout déterminant | {0f;/0r°} | d'ordre m sera donc désigné par |g,| 
et la fonction f,(z, y(z)) par œ(z). La valeur absolue de la fonction 
[gy (x)| sera notée ]g,(x) |4. 

Les deux numéros suivants seront consacrés aux propriétés 
des méthodes du premier et du second ordre. Le n° 4 traitera des 
méthodes utilisant des directions duales ou conjuguées pour mini- 
miser p (z) (ou des algorithmes s'appuyant sur des méthodes de ce 
type). Du point de vue de la pratique. ce sont ces algorithmes qui 
offrent le plus d'intérêt. 


2. Méthodes du premier ordre. Etudions les méthodes utilisant 
la linéarisation de la fonction /, (x) et des liaisons f;, i—1, .... m. 

Considérons un algorithme dont chaque pas est celui d’une 
méthode du gradient destinée à minimiser une fonction q (2): 


Zh+1 = 5h — œnp'(zn);, Yn+1 = Y (Ent) (9.13) 


où z4 est le vecteur correspondant au déterminant | g,(x)| de plus 
grande valeur absolue au point x, € S, parmi les déterminants | g,|, 
le gradient œ” (z.) s'obtient moyennant la formule (9.10) et le para- 
mètre æ&, se définit par l’un des procédés décrits au $ 1, ch. II. 
Nous prendrons pour &, la valeur maximale du paramètre obtenue 
par fractionnement à partir d’une constante positive satisfaisant 
à l'inégalité 

fo(z, y(z)) — fo(zns Ya) —eallp' (2), O<e<1, (9.14) 


avec z — 2, — ap (z,) (l’analogue du procédé de choix de a; à 
partir de la condition (I1.1.2.)). 
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THEOREME 9.1. Si les fonctions f, (x) et fix), i = 1, ..., m, 
sont deux fois continüment dérivables. les fonctions f; vérifiant la 
condition (9.12) et l'ensemble S = S, AN So(So = {x: fo (X) K fo (To) }) 
étant borné pour un choix arbitraire du point x,, alors fo(ta+a) < 
Lf(xx) sur la suite (9.13) et || æ'(zx) II © pour k— 00. 


DEMONSTRATION. La condition (9.12) entraîne la possibilité de: 
construire la suite (9.13): pour les valeurs suffisamment faibles 
du paramètre & le point z;;, tombe dans le voisinage du point :;, 
domaine de définition de la fonction y (2). En vertu des conditions. 
du théorème la fonction œ(z) —f(z, y(z:)) yest deux fois continüment 
dérivable. On a donc l’estimation 


pÜnn)—p(a)Sa le GE (—1+ 19" (G)11), (9.15) 


avec (2) = p” (2x + O(zx:1 — 2)), 8 € [0, 1], d'où l'inégalité 
(9.14) pour les valeurs suffisamment petites de &,. Cela signifie. 
que la fonction /, (x) diminue de façon monotone sur les termes de- 
la suite (9.13). : 

Démontrons que {| œ’(2:) || — 0. Une fonction continue |g,(x)| 
atteint sa valeur minimale y sur un ensemble fermé borné S (théo- 
rème de Weierstrass), et. en vertu de (9.12), ÿ > 0 (la fonction 
FAO est continue en tant que la plus grande des fonctions: 
continues | g,(x) |1). Il existe un nombre fini de déterminants fonction- 
nels |g,| distincts et, vu la dérivabilité des fonctions f;, ils sont 
tous des fonctions uniformément continues sur $. On trouve donc 
pour toute constante O0 y, < y une constante p >> 0 telle qu'en 
tout point de l’ensemble S appartenant à une sphèêre $S, de rayons 0: 
et de centre dans un point quelconque Ÿ € S, la valeur absolue du 
déterminant| g,(x)| prenant la valeur |g, (8) |en Ÿ soit au moins ÿ1. 
L'ensemble S étant borné et les dérivées partielles premières et 
secondes des j; continues, ces dérivées sont bornées (par une constan- 
te M) quel que soit ÊES choisi dans la sphère S; de rayon p. Ceci 
étant, on dit, en conformité avec les théorèmes de fonctions impli- 
cites, que dans un parallélépipède 


[6 + 601], i — 1,...,n, 


appartenant à la sphère S4 le système (9.1) définit au moins une- 
fonction vectorielle y (z) deux fois continüment dérivable et que dans. 
ce parallélépipède une telle fonction a ses dérivées bornées : 


My (US M 117" G@) I < Ni. (9.16) 


Vu cette circonstance et la propriété analogue des dérivées premières. 
et secondes de la fonction f, (x) sur $, les dérivées de œ(z) sont égale- 
ment bornées dans le parallélépipède {0° + 60]: || @' (2) IIS M2. 
Ip" (2) IS Ve. 
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On se convainc maintenant qu'il existe une constante Ô > 0 
telle que si ax < 6, le point z:+, se trouve dans une sphère Sx, de 
rayon p. En effet, supposons que ||Zz+ — 2x ° = ||zr+s — 22 À + 
+ || Yx+1 — Ur [À = p°. Ces égalités signifient l'appartenance de 
Th] à S x, et ce point est donc élément d'un parallélépipède [x + 
+ ri], i=1,...,n, dans lequel les dérivées de la fonction y(z) s'éva- 
luent par (9.16). Par conséquent, || Yr+1 — Yr ||  Nall 241 — 2a Il, et 
il résulte des égalités précédentes que (M3 + 1) [|2:41 — 24 | — 
= aiNillq" (2) IF > 0°, d'où 

p p 
ART GT 7 Me 
Selon cette estimation l'égalité ||zy+1 — zx || — p a lieu pour le para- 
mètre ax > p/(N,N:), i.e. on choisit pour ô n'importe quelle cons- 
tante au plus égale à p/(NN:). 

Utilisons l'inégalité (9.15) (et prenons en considération le ca- 
ractère borné de œ” (2)) ; nous nous assurons sans peine que l'inégali- 
té (9.14) a manifestement lieu pour &, = min 4 6, : =} , Ce qui 
veut dire, f, (x) étant minoré (sur l’ensemble S), qu’on a nécessaire- 
ment || p'(z:) || —+ Ô quand # tend vers l’infini. Le théorème est dé- 
montré. 

Dans le cas général, la dernière condition signifie la convergence 
de la suite (9.13) (ou d’une suite partielle de (9.13) ) vers le point z, 
qui vérifie une condition nécessaire d’extrémum de f, (x) sur la va- 
riété S, (en ce point le gradient f, (x,) est orthogonal à l’hyperplan 
tangent g'(z,) (z — x,) = 0; voir ch. I, $ 4). Comme f, (x) est con- 
tinue, elle admet un minimum sur S. Si la suite (9.13) converge vers 
la solution et la fonction (2), qui est la fonction à minimiser du pro- 
blème auxiliaire auquel se réduit le problème initial dans un voisinage 
du minimum, vérifie les conditions m, || v||? <(@p”(2) v, v) << M I|v | 
pour tout v € E"-", ]a convergence est au moins aussi rapide que 
celle d'une progression géométrique — cela découle des résultats 
généraux sur la convergence des méthodes du gradient (théorë- 
me 1.1.2). Arrêtons-nous sur certaines questions relatives à la mise 
en œuvre de la méthode. 

Dans le théorème que nous venons de démontrer on a défini les 


vecteurs z, et y à l’aide du déterminant |g, (z:)|. On le trouve à cha- 
que itération en calculant tous les déterminants | g,|. Dans la pra- 


tique, on n'en a cependant pas besoin (si l’on s’est servi de | g,| dans 
le théorème, c’est uniquement pour simplifier la démonstration). 
La convergence de la méthode ne change pas en choisissant 2, et 
yx Correspondant à tout déterminant {|g,| dont la valeur ab- 
solue au point zx, est au moins égale à une constante positive 
arbitraire u (la même pour tous les k). Dans les conditions du théore- 
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me cette constante existe puisqu'il en est de même de la constante y. 
Pour mettre en œuvre l'algorithme on doit donc choisir les vecteurs 
z et y correspondant à un même déterminant tant qu'en un point 
il ne devient pas en module inférieur à Lu; c'est alors qu'on passe 
à d’autres z et y, i.e. on calcule un autre déterminant |g, |. La cons- 
tante L est choisie quelconque. Il se peut qu’en un point z, tous 
les déterminants | g, | soient de module inférieur à pu. On prendra 
alors une autre constante u, << pu. Chaque partition du paramè- 
tre & nécessaire pour qu'on ait l'inégalité (9.14) demande qu'on 
recalcule la fonction y (z) (pour obtenir f, (x) = fo (z, y (z))), i.e. 
on résout le système d'équations non linéaires (9.1) pour z fixe. 
Pour réduire le volume de calcul on trouve la valeur cherchée du 
paramètre en testant l'inégalité 


fo (z, Yi (2)) — fo (ns Ya) —em lp (2), O<e<1. (9.17) 


Dès que (9.17) a lieu. on vérifie l'inégalité (9.14) pour « obtenu; 
si cette dernière n'est pas satisfaite, on continue de fractionner «, 
et si elle l’est, on se contente de ce « ou on essaie de l’augmenter 
en testant toujours (9.14). Notons que 


y(2)= ya + y (a) (c—2) +O(Nz- 2) = y (2) +0 (2-2 1f). 


Pour 2,4, — 2, Suffisamment petit, on à fo (Zn+1r Yi (Zn+1)) — 
— fo (Zrt1 Y (Zn41)), et donc (9.14) a lieu simultanément avec (9.17) 
i.e. on se passe de fractionnements complémentaires du pas. 


REMARQUE. Dans le théorème 9.1 on peut affaiblir les condi- 
tions imposées à la régularité des fonctions f, (x) et f; (x), ce qui 
complique du même coup la démonstration. 

Voyons en quelques mots une autre méthode du type (9.9) dans 
laquelle le vecteur p, est choisi d'après la formule (9.11) (les vec- 
teurs z,, y, se définissent comme dans la méthode précédente) et &} 
est la valeur maximale du paramètre (qu'on obtient par fractionne- 
ment) pour laquelle on a l'inégalité 


Jo (£, Y(2)) — fo (Zn, Yn) LEL (P' (Zu), Pa), 2= 2 + Pa. 


Le théorème 9.1 reste en vigueur pour cet algorithme, et la démons- 
tration ne diffère que par certains détails (comme pour les théore- 
mes sur les propriétés des méthodes du type gradient et ceux relatifs 
à la méthode de la plus grande pente du $ 1, ch. IT). 

Notons que le coût par itération d’un tel algorithme dépasse 
celui de la méthode (9.13). 


3. Une méthode du second ordre. Supposons f, (x) fortement con- 
vexe. La fonction quadratique F, (x) (9.7) est alors strictement 
convexe de même que Yx (2) — Fr (2, y1 (z)) (étant donné la linéa- 
rité de y1(:)). Plus précisément, en vertu de la convexité forte 
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de f, (x), toute fonction, (z) vérifie, quel que soit le vecteur v € 
€ E"-", les conditions 


molle, v)L<Mollvif. mo > 0. (9.18) 
avec la matrice Yÿ% = fozz + Y'*foyyY + 2Y"*fo:, (toutes les déri- 


vées se calculent au point xz,). Dans ce cas, le vecteur p, minimi- 
sant 1, (z) est obtenu par la formule 


Pr = — (pr) "8 (zx). (9.19) 

Dans la méthode du second ordre le point x,:,. k — 0, 1, ..., est 
construit comme suit : 

Zn = 2 — Gen (PR) TV (Zn); Yn+s = Y (Zn+1) (9.20) 


où les vecteurs 2, et y, se définissent comme dans la méthode (9.13) 
et où l’on prend pour &, la plus grande valeur (obtenue par fraction- 
nement) du paramètre, qui vérifie l'inégalité 


fo (2) — fo (mn) ea (q' (zx), Pr), 0LE< +. (9.21) 


Ici x — (2, y (z)), z = 2x + apr. 
TH£oREME 9.2. Soit une fonction deux fois continüment dérivable 
fo (x); 
m || © |P<(/, (x) ©, ©) <M|lol, m>0, 


pour tout vecteur w € E" et les fonctions f; (x), i—1,..., m, 
remplissant les exigences du théorème 9.1. Quel que soit Le point x, 
choisi, les résultats du théorème 9.1 se conservent pour la méthode (9.20). 

Le schéma de démonstration est analogue à celui du théorème 9.1. 
Nous ne nous intéresserons donc qu'à ce que le choix différent du 
vecteur p, y apporte du nouveau. 

Etant donné la stricte convexité de f, (x), l'ensemble S, est 
borné. Par conséquent, l'ensemble S — S, MN S, est borné et fermé 
(vu la fermeture de S, et de S,). On le prend en considération et on 
établit, comme dans le théorème 9.1, les estimations (9.16) et la 
borne dans le parallélépipède [6Ÿ + 68], i — 1. ..., nr, des dérivées 
p'(z), p" (). 

Ensuite, on a ||(#)*|I&-5 en vertu de (9.18), donc || pa|| = 


= 11 GED (an) 1 CHI GG) II Na/mo et, partant, 
pm 
BNP dar PE) 


si (NE +1) |] Sre —2 [= GÈNE |] pa IP >p°. 
Il en résulte qu’on peut prendre pour constante une constante 
quelconque égale au plus à pm /(NiW2). 
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Développons ® (=) en série de Taylor; nous établissons que dans 
une sphère S., de rayon p 


4 = ar (P' (zx), pa) + À (9° (ne) Prs Pr) 
x (D (2x), Px) (1 + lime), 


2 (q (Zh); Ph) 
Compte tenu de (9.18), la formule (9.19) entraîne 


(kPrs Pr) = — (D (2x); Px) > M0 |] Pa |. 
Par suite, 


Li (e À AE 
P (Ent) — (x) L'Ax (P (zx) Pr) ( _. me) 
On établit moyennant cette estimation et (9.22) que l'inégalité 
a manifestement lieu pour 


&, = min {5, 2mo (1e) 


Vo ? 
ce qui veut dire, vu la borne inférieure de fo (x), 
(q" (zx), Pr) 0. (9.23) 


Puisque — (@° (2x). px) = (pr) p' (zx), p' (x) > mo Ip" (2x) IF la 
convergence (9.23) implique || @’ (z:) | 0, ce qui achève la dé- 
monstration du théorème. 

Quiconque s'adresse à l'algorithme (9.20) doit se rappeler les 
remarques sur le choix des vecteurs 2,, y, et du paramètre «, que 
nous avons faites en étudiant la méthode (9.13). 

Si la suite (9.20) converge vers la solution et @ (:\ à la minimisa- 
tion de laquelle se réduit en fin de compte la résolution du problème 
de départ. vérifie la condition 


Vi — p” (cr), (9.24) 
il y a la convergence superlinéaire. On l’établit en tenant compte 
de ce que sous cette condition (et vu que (papx, Pr) —= — (D (2x), Pn)) 


_— ” 0 __ an (&" (2x) Pr. Pa) 
P(Sn+1) —® (2x) = Gr (P (2x), Pr) (4 D ml) 


"1 ((D° (zhce)—P" (&x)) Pre Ph) 


2 CPSPRs Pa) A (D (2x); px) X 
__ 4h _ @n ((D° (Ze) —®"(zn)) Prs Pa) 
é (1 2 2 . (PE PR Ph) | 


et la fonction œ (z) est, par suite, de (9.18) et (9.24), fortement 
convexe dans un voisinage du minimum. En serappelant ces circons- 
tances, on démontre la convergence superlinéaire comme par exemple 
pour la méthode de Newton ($ 2, ch. Il). 
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Dans certains problèmes, la méthode (9.20) a donc une conver- 
gence plus rapide que les méthodes du premier ordre. Mais elle peut 
s'avérer sensiblement plus coûteuse par itération vu la nécessité 
de calculer les dérivées secondes de ÿ, (x). 


&. Méthodes de minimisation de haute efficacité. Les méthodes 
de projection examinées aux numéros précédents sont dans un 
certain sens les analogues des méthodes du gradient et de Newton 
pour des problèmes d’extréma libres et elles connaissent les mêmes 
défauts que ces dernières: soit une convergence mauvaise (méthodes 
du premier ordre), soit le côut élevé de l’itération (celles du second 
ordre). Mais le fait que dans les algorithmes étudiés la résolution 
du problème initial se ramène à la recherche du minimum de fonctions 
sans contraintes (d’une ou de plusieurs selon qu'on est dans la con- 
dition (9.8) ou (9.12)) permet d'utiliser des algorithmes aussi effi- 
caces que les méthodes des directions duales ou des directions conju- 
guées ($ 4-5, ch. IT). Ainsi, pour des fonctions f; (x), i = 1, ..., m, 
telles qu'on ait la condition (9.8) et le système (9.1) admette pour 
tout z fixe une seule solution y = y (2), si @ (z) = f (z, y (z)) est 
fortement convexe deux fois continüment dérivable, la convergence 
de toute méthode des directions duales ou conjuguées (destinée 
à la minimisation de œ (z)) vers la solution est superlinéaire. Si l’on 
utilise les versions avec reconstitution des matrices 4; et H, après 
un nombre fini de pas (voir n° 2, $ 5, ch. II), la convergence est 
garantie sous les mêmes hypothèses sur q (z) que dans les méthodes 
du gradient. 

Prenons à titre d'exemple le problème de minimisation d'une 
fonction quadratique f, (x) avec les contraintes linéaires g (x) = 
= Az + b — 0, où À = (a;y;) est m xX n, b = (b!. ..., b”). 

Soit | (ay) | Æ 0, à, l = 1, ..., m. On pose alors y = (x!, ... 

tro (ET as dn): 

La fonction y (z) étant linéaire, y (z) est une fonction quadratique 
de la variable z et elle est strictement convexe s'il en est de même 
de la fonction initiale f, (x). On trouve le minimum de œ (2) au 
bout de n7 —m pas par toute méthode utilisant des directions duales 
ou des directions conjuguées. 

Si fo (x) etf; (x), i = 1,..., m, vérifient les exigences du théore- 
me 9.2 ((9.8) étant remplacé par une condition plus faible (9.12)), 
les directions duales et les directions conjuguées permettent de 
minimiser toute fonction œ (z) intervenant dans la résolution du 
problème. En d’autres termes, le vecteur p, et le paramètre a, se 
définissent dans les algorithmes du type (9.9) comme dans les métho- 
des des directions duales ou conjuguées et les vecteurs z4, et y, sont 
choisis comme dans la méthode (9.13). Les algorithmes ainsi cons- 
truits (et qui s'effectuent avec reconstitution de la matrice A;! ou 
H,) convergent dans les mêmes conditions que les méthodes de 
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projection du premier et du second ordre, mais ils l’emportent sur 
ces dernières quant à leur efficacité; en particulier, une élévation 
relativement petite du coût de l’intération par rapport aux méthodes 
du premier ordre conduit à la convergence superlinéaire. 

Dans la pratique, c'est justement par les algorithmes du type décrit 
dans le présent numéro qu’on doit résoudre le problème étudié. 

On réduit le coût par itération (de la méthode (9.20)) en utili- 
sant au lieu de f(x) la matrice D, définie par le système. 


Dr (Zn -i ton Tn-i-1) — fo (Tr 2) nn A (Zr-i-1); L — 0, L; son — 1 


(l’analogue du système (11.3.6) permettant de construire les méthodes. 
des directions duales), et en construisant le vecteur p, — —F;@ (2;). 
Où Fr = D,;,: + Y'*Di,5ÿ + 27 *D3.,, les matrices D,.., D,,,. 
D;:7 étant les composantes de D, correspondant aux matrices fo... 
fouyr fozu- 


9. Sur la résolution du problème général de programmation: 
mathématique. Soit à minimiser f, (x) dans les contraintes 


fix) LO, L — 1: RE LT (9.25). 


qu'on peut ramener de diverses façons aux contraintes égalité. 

Introduisons par exemple les variables supplémentaires z7+1, ... 
.., a+, Les contraintes (9.25) sont alors vérifiées pour les mêmes 

valeurs des variables xl, ..., x" qui satisfont aux égalités 


(a + f(x) = 0, i—=1,...,m. (9.26) 


Le minimum de f, (x) dans les contraintes (9.25) coïncide donc avec 
le minimum de cette fonction dans les contraintes (9.26). On recherche- 
le minimum de ÿ, (x) sous les contraintes (9.26) à l’aide des méthodes 
du premier ordre examinées au n° 2. 

Il est impossible de résoudre le dernier problème par la méthode 
(9.20) parce que f, (x) n’est pas strictement convexe dans l’espace: 
Er+m: on constate aisément la singularité dans E"+" de la matrice 
fs (x). C'est également la raison de l’impuissance des directions 
duales et conjuguées. 


6. Remarques terminales. De toute la classe de méthodes de 
projection avec reconstitution des liaisons nous n'avons analysé: 
que les algorithmes utilisant les formules (9.9). Pour certains pro- 
blèmes cette mise en œuvre de la troisième (dernière) étape de l'ité- 
ration peut s'avérer peu commode, ce qui appelle une autre tactique. 
On définit par exemple le point z,+, € S, de sorte que la quantité. 
[| Ta+1 (&) — zx (æœ) || minimise la distance entre x, (&) et l’ensem- 
ble 

Le coût par itération des méthodes de projection diminue à mesu- 
re qu'on s'approche de la solution (ou d'un point stationnaire de: 
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fo (x) sur S,) puisque le problème de définition de z;;, (moyennant 


z}») se simplifie progressivement. Ainsi, l’effort de calcul qu'exige 
la résolution du système (9.1) pour z::, fixe (i.e. le calcul de la 
fonction y(2::1)) diminue d'une approximation à l’autre car le 
point y (2:+,) approche toujours mieux la solution y (2:+1) avec 
la croissance de #. En ce sens les méthodes de projection ont un 
grand avantage sur les techniques utilisant les fonctions de péna- 
lisation dans lesquelles chaque nouvelle approximation exige qu’on 
résolve un problème plus ardu. 


COMMENTAIRE 


$ 1. La méthode de résolution des problèmes de programmation quadratique 
s'inspire de l'idée du gradient conjugué. Elle est d un emploi particulièrement 
simple et commode dans le cas de contraintes simples sur les variables. Les 
problèmes de programmation quadratique se prêtent à de nombreuses autres 
méthodes dont certaines convergent en n pas (voir les monographies de H. À. 
Künzt et W'. Crelle [83], S. Zoukhovitski et L. À vdééva [14], G. Zoutendijk [104; 1], 
V. Démianov et V. Malozémov [9; 2]). 

F. Ivanoc [16; 2, 3], V. Jvanuv et Y. Troutègne [17] analysent l'efficacité et 
Ja précision de divers algorithmes. 

8 2. Notre exposé de la méthode des directions admissibles suit pour l’essen- 
tiel S. Zoukhovitski, P. Poliak et M. Primak [15; 1, 2]. La méthode du $ 2 diffère 
de la méthode classique par la règle gouvernant le choix de la longueur du pas à 
<haque itération. Diverses versions des directions admissibles sont étudiées et 
justifiées en détail par G. Zoutendijk [104; 1, 2] et D.M. Topkis et A. F. Vei- 
nott [100]. 

$ 3. Pour le premier exposé de la méthode du gradient conditionnel voir 
M. Frank et P. W'olfe [63]. Elle a été ensuite étudiée par V. Démianov et À. Rou- 
binov [10], £. Lévitine et B. Poliak [22], où on trouve les estimations de la vitesse 
de convergence. M. D. Cannon et C. D. Cullum [47] en ont prouve l'exactitude. 

E. Lévitine et B. Poliak [22] ont généralisé la méthode de Newton à des pro- 
blèmes avec contraintes. La méthode de Newton à pas variable a été étudiée entre 
autres par Ÿ. Daniline [7; 1, 2]. 

$ 4. En présentant la méthode du plan sécant les auteurs se sont inspirés 
de l'ouvrage de J. E. Kelley [81]. Ses diverses généralisations et l'estimation de 
la vitesse de convergence (| f (z,) — f (ze) | < C/n) pour une fonction / (x) for- 
tement convexe sont données dans l’article de £. Lévitine et B. Poliak [22]. 

$$ 5-6. L’exposé de la méthode de linéarisation suit le travail de B. Pchéni- 
ichny (29; 4] qui en démontre la convergence. Des résultats plus fins tels que la 
convergence en # pas pour la programmation linéaire, l’estimation locale de la 
vitesse de convergence et la convergence quadratique dans des cas spéciaux sont 
publiés pour la première fois. Il en est de même de  pphevon de cette méthode 
a un problème de minimax. Ce dernier problème a été étudié par V. Démianor et 
V. Malozémov [9: 2, 1] qui ont construit plusieurs algorithmes de descente cor- 
respondants. 

Notons de plus que le problème de minimax peut être abordé par l'algorith- 
me de gradient généralisé et ses variantes élaborés par N. Chor [36; 1-4]. 

$ 7. Bien que proposé pour la première fois, le procédé d'accélération de 
la convergence (n°$ 1-3) est très proche quant à son idée de celui de Y. Daniline 
et B. Pchénitchny [8; 1, 2]. Les méthodes de résolution de systèmes d'équations 
sans calcul de dérivées des premiers membres ont intéressé de nombreux auteurs 
pe F J. Zeleznik [103], J. Barnes [42], C.G. Broyden (46: 1], V. Chamans- 
ki [35]. é … 
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Le n° 4 applique la méthode de Newton aux systèmes d'équations aux équa- 
tions qui interviennent lorsqu'on formule les conditions nécessaires d’extrémum. 
AE étude plus poussée des questions correspondantes consulter B. Poliak 

8; 3]. 
$ 8. Technique très employée, la méthode de pénalisation fait l'objet de 
nombreux ouvrages. Ses diverses propriétés sont traitées dans les monogra- 
phics de J. Céa [50], À. V. Fiacco et G. P. McCormick [59], E. Polak [93; 2], 
dans les articles de W. 7. Zangwill 1102; 2], E. Lévitine et B. Poliak [22], 
A. V. Fiacco [58], et les estimations de sa vitesse de convergence dans /. Erémine 
[12; 1] et D. Laenberger {85]. La méthode des centres qui est étroitement liée avec 
la méthode de pénalisation a été proposée par P. Huard [77]. On trouve une varian- 
te nouvelle, peu étudiée, de la dernière technique dans M. R. Hestenes [72; 1]. 

$ 9. C’est J. B. Rosen [96] qui a été l’un des premiers à utiliser les méthodes 

de projection pour résoudre des problèmes avec contraintes. L'article de À. Miele, 

H. Y. Huanget J.C. Heideman [88] analyse des algorithmes de projection avec 

reconstitution des liaisons dans lesquelles la direction de déplacement est définie 

ar une méthode du gradient ou par le gradient conjugué et on minimise à l'étape 
inale la distance du point aux liaisons. 

Les algorithmes de projection exposés dans ce paragraphe ont été étudiés 
par Y. Daniline [7; 3]. 

Parmi les procédés négligés par les auteurs citons la méthode des approxi- 
mations de Fejer développée par 7. Erémine [12; 2, 3] et la méthode du gradient 
généralisé de N. Chor [36; 1-4]. Pour des méthodes combinées destinées à la recher- 
c e de l’extrémum voir V. Zvanov [16; 1]. On doit à V. Karmanoc [29] de nom- 
breux résultats fort intéressants sur la convergence des algorithmes de minimi- 
sation. 

Quant aux ouvrages de synthèse consacrés aux méthodes numériques, citons 
Y. Ermoliev [13]. G. Zoutendijk [104; 2], ainsi que H. P. Künzi et W. Oettli [84] 
et F. Vassiliev [4], où l’on trouve une vaste bibliographie sur la question consi- 
dérée. 


16—01608 


ANNEXE 


SCHÉMAS DE CALCUL 
DE PRINCIPAUX ALGORITHMES 


I. Méthode des directions duales (ch. II, $ 3) 

La méthode est destinée à minimiser une fonction convexe f (z), x € E”. 

Schéma de l'itération. 

Soient z, un point quelconque et sp,0, So,-15 + + +» So=n+1 Un Système arbi- 
traire de vecteurs linéairement indépendants. 

Pour 0 << k < n — 1 l’itération comprend les étapes suivantes: 

4) on construit le point 

Th = Th — Cf" (zx), (1) 

avec a, choisi par n'importe quel procédé du $ 1, ch. I]; 

2) on pose 


Th—1 —= Théi— Th) 


: 2 
epx1 = f" (zhe1) — F7 (zx); @ 
3) on calcule 
(SR, kén+ts €h+t)- 
Si 
l(Sh, k-n+4 eh#1)| > V Il SR, k=n+t I ere Îl, (3) 
où y > Oest une constante aussi petite qu'on le veut, alors on passe à 5). 
Si 
[CSA k-nets Chat) VI SR, R=net ent [l (4) 
on passe à 4); 
4) on pose 
That = Bnei Îl SR, k-n+s Îl, (5} 


avec Bz+1 > 0 choisi de façon qu'on ait la condition | r,+1 | << ||rz ||. 

On calcule le gradient f” (zx + rx+1) et on construit le vecteur e,+, = 
= f" (zx + Tnt) — f' (zx), puis on passe à 5); 

5) on construit le système de vecteurs 

Sh, R=n+1 
(SR, h-n+1s €h+1) ? (6) 

Sh#i,Rk-j = SR, R-j — (SR h-jr Eh41) Sha1, het 
j=0,1,..., n—2. 

C'est l'étape finale de l’itération. 

Pour k > n on procède comme suit : 


Sh+1, k+1 — 


1) on construit le vecteur 


n—i 
pa=— D U'(æR)s Sr, ki) hi à 
i= 0 


2) on calcule la quantité (/’ (x), px). 

Si (f’ (zx), Pr) & 0, on construit le point z,+, selon l’une des formules 
Zh+1 = Zh E ERP, aVeC &, choisi à partir de la condition (2.2), ch. II. 

Si (f' (zx), pr) = 0, alors z,}, est obtenu par la méthode du gradient 
(voir n° 4) pour k < n — 1 (le processus itératif ultérieur s'effectue comme pour 
k< n— 1 (étapes 2) — 5))). 


REMARQUES. 

4. Nous n'avons décrit qu'un seul schéma de calcul des méthodes des direc- 
tions duales. Les premières itérations (k < n — 1) obéissent ici à la méthode du 
gradient. Comme celle-ci garantit en général au début une décroissance suffi- 
samment rapide de la fonction, un tel démarrage s’avère commode pour nombre 
de problèmes. 

2. Les désignations des vecteurs de la base duale sont changées pour la 
raison de commodité (cf. (6) et (11.3.21)). 

3. Si le vecteur r;,4+., est choisi sous forme (5) et la fonction f (x) est régulière 
fortement convexe (i.e. on est dans les conditions (11.2.4)), l'inégalité (3) a auto- 
matiquement lieu à condition de prendre la constante y suffisamment petite. 
En effet, si f(x) remplit les exigences formulées, alors || ex | & Af Ir, || et 
on a l'estimation (11.5.18). Par suite 


Â 
(SA, R-n+1) €h+1) — D. (Their hat) > 


m 


m m 
> ra > 2 rh ere NE << sa henet l ere [l: 
Br BrM M 


Ainsi, l'inégalité (3) est valide quand y < T è 

4. L'expérience montre que y peut ‘tre choisi très petit : y — 10-85 = 10-15. 
Si la condition (3) n'est pas Vériliée même pour r,+, Sous forme (5), cela atteste 
que la matrice f” (r) devient pour z —+ x, de plus-en plus mal conditionnée, i. e. 
la fonction à minimiser n’est pas fortement convexe. En particulier, les surfa- 
ces de niveau d'une telle fonction peuvent présenter des « vallées » bien pronon- 
cées. 11 est alors impossible d'approcher tres bien la solution par rapport à l'ar- 
gument. Dans la pratique, on arrive cependant à obtenir des valeurs suffisam- 
ment voisines du minimum même dans ïe cas des fonctions non convexes possé- 
dant des surfaces de niveau décrites. 


II. Méthode du gradient conjugué (ch. II, $ 4) 


La méthode est destinée à minimiser une fonction convexe f (x), x € En. 
Schéma de l’itération. 


Soient zo un point quelconque et ps = —j" (xo). 
1) Si fO<LKk< n — 1, on passe à 2), 
k=n on passe à 5); 


2) on construit le point 


Tht1 — Th À CPR 
le facteur a; étant défini par la condition 
f (zx + GnPr) = min f (zx + apy); 
a»>0 
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3) On calcule le vecteur 


Pha1= —f" (the) + BrsiPrets 


où 
BPasi = — (F' (thes), f (thés) —f' (zh), 
” (f° (zx), PR) : 
4) on passe à 1) ; 
5) on pose za = zo, Po = —/J" (zh) et on recommence le processus (passage 
à 1)). 


REMARQUE, Le coefficient $;+:, se définit par toute formule (11.4.73). 


II. Méthode des directions admissibles (ch. III, $ 2) 
La méthode est destinée à résoudre le problème de programmation convexe : 
minimiser f, (x) avec les contraintes 


li (x) < 0, i— 1,..., m, 
Az—b=0, 


où rx E En, f;(x), i—=0,..., m, sont des fonctions convexes continûment 
dérivables, À est une matrice Z X n et b un l-vecteur. 
Notations : 


16 (z) — {i: fi (z) z —6, i=4,..., m}, 
ILpll= max |pil, 
1<J<n 
où p € E', pi étant les composantes du vecteur p. 

Données de départ : x, est une approximation initiale vérifiant toutes les 
contraintes : 69 > 0, ë > 0, i = 0,..., m, sont des nombres positifs (en 
général quelconques). 

Pas général de l’algorithme. 


Le point x, et le nombre 6, > 0 sont calculés. 
1) Résoudre le problème de programmation linéaire 


min" 
(fi(æn), P) <Eim, € 18, (zx) U(0}, 
Ap =0, 
—1A<pi<+1, J=1,...,n. 


Sa solution est ny, P£-. 
2) Si 1x << —Ô}, alors 


Th+1 = Th HF ORPhrs Ônt1 = Ôps 
Où y = ne go est le premier entier q = 0, 1, ..., qui vérifie les inégalités 


| 4 1 
Îo (sut-7 rs) < fo Gn)+ UE 


4 : 
Îi (a1+-7r) <O,i=1,..., m. 
. 1 
3) Si na > —ôx, alors zu+1 = ps pti — + On. 
4) Recommencer avec 1). 
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REMARQUE. Le choix des 6,, ë; peut influer sur le processus, mais il doit 
être suggéré par l'analyse d'un problème concret. L algorithme s'applique 
également à des problèmes non convexes. 


V. Méthode de linéarisation (ch. III, $ 5) 


La méthode est utilisée pour résoudre le problème suivant : minimiser 
fo (zx) sous les contraintes 


fi (æ)<0,i= 1, ee es M; 
fi(z)=0, i= m+1,..., m+l, 


avec f; (z) des fonctions continüment dérivables. 
Notations : 


F(z)=max{0, f1(x)e +.) fm(z), fm (2) ls +, l'fmai (x) |}, 
T6(z2)={t:fi(z) > F(z)—6, t—1, ..., m}, 

18 ()={i:lfi(21>F(2)—6, i=m+i, ..., m+l)}, 
On (z)= fo (2) + NF (2), 


n 
le12= D (pi. 
j=1 


Données de départ : z, est une approximation initiale arbitraire, N, un 
nombre suffisamment grand, à, > 0, 0 < e < 1. 

Pas général de l'algorithme. 

Le pos z} et les nombres NW, et 6, sont construits. 

1) On résout le problème 


ES | 
min (fo (zx), P)+ ll pl, 
(i(zx), P)+fi(zr) SO, € T8, (zx), 
(itæn), P)+fi(æ)=0, € 8, (zh). 
Sa solution est p,. Si le problème est incompatible, on pose zy41 = 2}, Ôp+1 = 


—. Ôp, Np+1 = N} et on recommence avec 1). 
2) Si le problème est compatible et p, obtenu, on pose 


Th41— Th + RPhs 
Ôh+1 Es Ôhs 
où @,, est choisi égal à — et g, est le premier des entiers q = 0,1,...,qui véri- 
0 


fie la relation 
| | ” 
Dn, (art pa ) <O, Gn)—-7e I Pr ||. 


3) Soient ui, ie 16, (zx) UZ8, (z:) les multiplicateurs de Lagrange du pro- 
blème auxiliaire résolu à l'étape 1). Dans ce cas, on a V1 = hr si 


N> > u} + » Lu, |. 
ETS, (xp) Ier, (xn) 
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Dans le cas contraire, 


Niu=2[ 2 Out 2 lu] 
EIS, (xp) 18, (x2) 


&) On recommence avec 1). 


REMARQUE. A partir d’un pas les nombres 6, et N, ne varient plus. L’al- 
gorithme exige un programme standard efficace de résolution du problème de 
programmation quadratique. 


V. Algorithme de résolution d’un système d'équations sans calcul de 
dérivées (ch. ITI, $ 6) 

L’algorithme sert à résoudre le système d'équations 

p(r)= 0, 

où z € En, p (x) est une fonction vectorielle n-dimensionnelle de composantes 
dérivables pi (2), j=1i,...,n. 

Données de départ : les approximations initiales z4, . .., x, sont choisies 
quelconques dans un voisinage suffisamment restreint de la solution. En parti- 
culier, tous les z,, k = 1, ..., n, peuvent coïncider. 


n 
Notations: [| p(r) [= D) (Pix) -p (x) vaut 1,2, ..., nr —1 si la 
Perl 
division de k par nr denne respectivement 1, 2, ..., nr — 1 pour reste ; o (k) = 
— nr si k est divisible par n. 
Pas général de l'algorithme. 


Zis - - +, TR SOnt déjà construits. 
1) Résoudre en B,, i = 1, ..., n, le système d'équations 


» Zh=n+ibi = —P(zr);, 
i=1 
où 
1 
PIC LP (25 +1 p (25) l'ex) — P (&)], 


e; étant un vecteur de composantes nulles excepté la i-ième qui vaut 1. 
2) Poser 


n 
Th T D Pieoh-n+1)° 
i= 1 


3) Recommencer avec 1). 
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